O crédito para esta resposta vai para @ttnphns, que explicou tudo nos comentários acima. Ainda assim, eu gostaria de fornecer uma resposta estendida.
Para sua pergunta: Os resultados da LDA em recursos padronizados e não padronizados serão exatamente os mesmos? --- a resposta é sim . Primeiro darei um argumento informal e depois prosseguirei com algumas contas.
Imagine um conjunto de dados 2D mostrado como um gráfico de dispersão em um lado de um balão (foto original do balão tirada daqui ):
Aqui os pontos vermelhos são uma classe, os pontos verdes são outra classe e a linha preta é o limite da classe LDA. Agora o reescalonamento dos eixos ou corresponde a esticar o balão na horizontal ou na vertical. É intuitivamente claro que, embora a inclinação da linha preta mude após esse alongamento, as classes serão exatamente tão separáveis quanto antes, e a posição relativa da linha preta não mudará. Cada observação de teste será atribuída à mesma classe que antes do alongamento. Então, pode-se dizer que o alongamento não influencia os resultados do LDA.xy
Agora, matematicamente, o LDA encontra um conjunto de eixos discriminantes calculando os vetores próprios de , onde e estão dentro e entre classes matrizes de dispersão. Equivalentemente, esses são vetores próprios generalizados do problema do valor próprio generalizado .W−1BWBBv=λWv
Considere uma matriz de dados centralizada com variáveis em colunas e pontos de dados em linhas, para que a matriz de dispersão total seja fornecida por . Padronizar os dados significa escalar cada coluna de por um determinado número, ou seja, substituí-lo por , onde é uma matriz diagonal com coeficientes de escala (inversos dos desvios padrão de cada coluna) na diagonal. Após esse redimensionamento, a matriz de dispersão será alterada da seguinte forma: , e a mesma transformação ocorrerá comXT=X⊤XXXnew=XΛΛTnew=ΛTΛWnew e .Bnew
Seja um vetor próprio do problema original, ou seja,Se multiplicarmos esta equação por à esquerda e inserir nos dois lados antes de , obteremos ou seja que significa quev
Bv=λWv.
ΛΛΛ−1vΛBΛΛ−1v=λΛWΛΛ−1v,
BnewΛ−1v=λWnewΛ−1v,
Λ−1vé um vetor próprio após o redimensionamento com exatamente o mesmo valor próprio antes.
λ
Portanto, o eixo discriminante (fornecido pelo vetor próprio) mudará, mas seu valor próprio, que mostra o quanto as classes são separadas, permanecerá exatamente o mesmo. Além disso, a projeção nesse eixo, originalmente fornecida por , agora será feita por , ou seja, também permanecerá exatamente o mesmo (talvez até um fator de escala).XvXΛ(Λ−1v)=Xv
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
Não, esta declaração está incorreta. A questão da padronização com o LDA é a mesma de qualquer método multivariado. Por exemplo, PCA. A distância de Mahalanobis não tem nada a ver com esse tópico.