Que tipo de normalização de dados deve ser usado com o KNN?

Eu sei que há mais de dois tipos de normalização.

Por exemplo,

1- Transformação de dados usando um z-score ou t-score. Isso geralmente é chamado de padronização.

2- Reescalonar dados para ter valores entre 0 e 1.

A questão agora se eu precisar normalizar

Que tipo de normalização de dados deve ser usado com o KNN? e porque?

— jeza
fonte

Para k-NN, sugiro normalizar os dados entre e . $0$ $1$

O k-NN usa a distância euclidiana como meio de comparar exemplos. Para calcular a distância entre dois pontos e , onde é o valor do ésimo recurso de : $x_1 = (f_1^1, f_1^2, ..., f_1^M)$ $x_2 = (f_2^1, f_2^2, ..., f_2^M)$ $f_1^i$ $i$ $x_1$

d (x_{1}, x_{2}) = \sqrt{(f_{1}^{1} - f_{2}^{1})^{2} + (f_{1}^{2} - f_{2}^{2})^{2} + . . . + (f_{1}^{M} - f_{2}^{M})^{2}}

$d(x_1, x_2) = \sqrt{(f_1^1 - f_2^1)^2 + (f_1^2 - f_2^2)^2 + ... + (f_1^M - f_2^M)^2}$

Para que todos os recursos tenham a mesma importância no cálculo da distância, eles devem ter o mesmo intervalo de valores. Isso só é possível através da normalização.

Se eles não foram normalizados e, por exemplo, o recurso teve um intervalo de valores em ), enquanto teve um intervalo de valores em . Ao calcular a distância, o segundo termo seria vezes mais importante que o primeiro, levando o k-NN a confiar mais no segundo recurso que no primeiro. A normalização garante que todos os recursos sejam mapeados para o mesmo intervalo de valores. $f^1$ $[0, 1$ $f^2$ $[1, 10)$ $10$

A padronização, por outro lado, possui muitas propriedades úteis, mas não pode garantir que os recursos sejam mapeados para o mesmo intervalo. Embora a padronização possa ser mais adequada para outros classificadores, esse não é o caso do k-NN ou de qualquer outro classificador baseado em distância.

— Djib2011
fonte

A sua resposta será a mesma se eu usar distância diferente em vez da distância euclidiana (por exemplo, distância de Manhattan ou outra distância, mesmo distância fracionária)? Também se o intervalo das variáveis estiver aproximadamente próximo um do outro.

— jeza

Sim, apenas mostrei a distância euclidiana como exemplo, mas todas as métricas de distância sofrem da mesma coisa. Se os intervalos são próximos um do outro, então não afetaria o cálculo da métrica que muito , mas ainda assim o faria. Por exemplo, se e , ainda seria mais importante do que . Uma coisa que eu esqueci de mencionar foi que a padronização, obviamente, é muito melhor do que não executar nenhuma escala de recurso; é simplesmente pior que a normalização.

f^{1} \in [0, 1)

$f^1 \in [0, 1)$

f^{2} \in [0, 1.2)

$f^2 \in [0, 1.2)$

f^{2}

$f^2$

20 %

$20\%$

f^{1}

$f^1$

— precisa saber é o seguinte

Ah entendo. "é simplesmente pior que a normalização" !?

— jeza