Por que o dimensionamento é importante para a classificação linear SVM?


15

Ao executar a classificação SVM linear, geralmente é útil normalizar os dados de treinamento, por exemplo, subtraindo a média e dividindo pelo desvio padrão, e depois dimensione os dados de teste com a média e o desvio padrão dos dados de treinamento. Por que esse processo muda drasticamente o desempenho da classificação?



Obrigado, juampa! No entanto, ainda não estou muito claro por que o conjunto de testes precisa ser escalado com a média e o padrão do conjunto de treinamento, e não o seu? Em alguns casos, o último parece ter um desempenho perfeitamente bom ou até melhor quando as duas classes de amostras estão bem equilibradas no conjunto de testes.
Qinghua 23/07

1
porque então você não está sendo consistente. Você está testando em dados diferentes. Imagine que você extraia as amostras de um N gaussiano (mu, sigma). Você treinou com N (0,1) (depois de centralização e escala), mas testados com N (mu, Sigma)
jpmuc

Respostas:


12

Eu acho que isso pode ser esclarecido através de um exemplo. Digamos que você tenha dois vetores de entrada: X1 e X2. e digamos que X1 tenha intervalo (0,1 a 0,8) e X2 tenha intervalo (3000 a 50000). Agora seu classificador SVM será um limite linear no plano X1-X2. Minha afirmação é que a inclinação do limite de decisão linear não deve depender do intervalo de X1 e X2, mas da distribuição de pontos.

Agora vamos fazer uma previsão sobre o ponto (0.1, 4000) e (0.8, 4000). Quase não haverá diferença no valor da função, tornando o SVM menos preciso, pois terá menos sensibilidade aos pontos na direção X1.


7

O SVM tenta maximizar a distância entre o plano de separação e os vetores de suporte. Se um recurso (ou seja, uma dimensão neste espaço) tiver valores muito grandes, ele dominará os outros recursos ao calcular a distância. Se você redimensionar todos os recursos (por exemplo, para [0, 1]), todos eles terão a mesma influência na métrica da distância.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.