Aqui está um pequeno conto sobre a Análise Discriminante Linear (LDA) como resposta à pergunta.
Quando temos uma variável grupos (classes) a serem discriminados, isso é ANOVA. O poder de discriminação da variável é S S entre os grupos / S S dentro dos grupos , ou B / WkSSbetween groups/SSwithin groupsB/W .
Quando temos variáveis , isso é MANOVA. Se as variáveis não estão correlacionados nem na amostra total, nem dentro dos grupos, em seguida, o poder de discriminação acima, B / W , é calculada de forma análoga e pode ser escrita como t r a c e ( S b ) / t r um c e ( S w ) , onde S w é a matriz de dispersão dentro de cada grupo reunido (ou seja, a soma de k matrizes SSCP das variáveis, centrado sobre o centróide dos respectivos grupos); S bpB/Wtrace(Sb)/trace(Sw)Swk p x p
Sbé o entre-grupo matriz de dispersão , onde S t é a matriz de dispersão para os dados inteiros (SSCP matriz das variáveis centrado sobre o grande centróide (A "matriz de dispersão" é apenas uma matriz de covariância sem devidedness. por sample_size-1.)=St−SwSt
Quando há alguma correlação entre as variáveis - e, geralmente, não é - o acima é expressa por S - 1 w S b , que não é mais um escalar mas uma matriz. Isso simplesmente devido a que existem p variáveis discriminativos escondidos por trás dessa discriminação "geral" e, em parte, partilha-lo.B/WS−1wSbp
Agora, podemos submergir no MANOVA e decompor em variáveis latentes novas e mutuamente ortogonais (seu número é m i n ( p , k - 1 ) ) chamadas funções discriminantes ou discriminantes - sendo o primeiro o mais forte discriminador, o segundo sendo o próximo atrás, etc. Assim como fazemos na análise de componentes do Pricipal. Substituímos as variáveis correlacionadas originais por discriminantes não correlacionados, sem perda de poder discriminativo. Como cada próximo discriminante é cada vez mais fraco, podemos aceitar um pequeno subconjunto do primeiro mS−1wSbmin(p,k−1)mdiscriminantes sem grande perda de poder discriminativo (novamente, semelhante à forma como usamos o PCA). Essa é a essência da ADL e da técnica de redução de dimensionalidade (a ADL também é uma técnica de classificação de Bayes, mas esse é um tópico totalmente separado).
Assim, a LDA se assemelha ao PCA. O PCA decompõe "correlação", o LDA decompõe "separação". No LDA, como a matriz acima que expressa "separação" não é simétrica, um truque algébrico de desvio é usado para encontrar seus autovalores e autovetores 1 . Eigenvalue de cada função discriminante (uma variável latente) é o seu poder discriminativo B / W I foi dizendo sobre no primeiro parágrafo. Além disso, vale ressaltar que os discriminantes, embora não correlacionados, não são geometricamente ortogonais como eixos desenhados no espaço variável original.1B/W
Alguns tópicos potencialmente relacionados que você pode querer ler:
O LDA é MANOVA "aprofundado" na análise da estrutura latente e é um caso particular de análise de correlação canônica (equivalência exata entre eles como tal ).
Como o LDA classifica objetos e quais são os coeficientes de Fisher. (Eu vinculo apenas às minhas próprias respostas atualmente, como as lembro, mas há muitas respostas boas e melhores de outras pessoas neste site também).
cálculos da fase de extração de 1 LDAsão os seguintes. Os autovalores ( L ) de S - 1 w S b são os mesmos da matriz simétrica ( U - 1 ) ′ S b U - 1 , onde U é araizdeCholeskyde S w : uma matriz triangular superior na qual U ′ U = S w . Quanto aos vetores próprios de S - 1 w S b , eles são dados por1 LS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSb- usando linguagem de baixo nível - mais rápido do que usando uma função genérica padrão "inv" de pacotes.) , ondeEsão os vetores próprios da matriz acima ( U - 1 ) ′ S b U - 1 . (Nota:U, sendo triangular,pode ser invertidoV=U−1EE(U−1)′SbU−1U
O método descrito para solução alternativa de composição de é realizado em alguns programas (no SPSS, por exemplo), enquanto em outros programas é realizado um método de "quase-zca-whitening" que, sendo um pouco mais lento , fornece os mesmos resultados e é descrito em outro lugar . Para resumi-lo aqui: obter matriz ZCA-branqueamento de S w - o quadrados simétrico raiz. S - 1 / 2 w (o que é feito através de eigendecomposition); em seguida, eigendecomposition de S - 1 / 2 w S b S - 1 /S−1wSbSwS−1/2w (o qual é uma matriz simétrica) produz valores próprios discriminantesGe vectores própriosA, pelo que os vectores próprios discriminantesV=S - 1 / 2 w A. O método de "quase-branqueamento zca" pode ser reescrita para ser feito através do singular valor-decomposição do conjunto de dados Casewise em vez de trabalhar comSWeSbmatrizes de dispersão; isso adiciona precisão computacional (o que é importante em situações de quase singularidade), mas sacrifica a velocidade.S−1/2wSbS−1/2wLAV=S−1/2wASwSb
OK, vejamos as estatísticas geralmente calculadas no LDA. As correlações canônicas correspondentes aos valores próprios são . Considerando valores próprios de uma discriminante éB/Wda ANOVA de que discriminante, correlação canónica ao quadrado éB/T(quadrados a soma de-T totais =) de que ANOVA.Γ=L/(L+1)−−−−−−−−−√B/WB/T
Se você normalizar (para SS = 1) colunas de autovetores , esses valores poderão ser vistos como os cossenos de direção da rotação de eixos-variáveis em eixos-discriminantes; portanto, com a ajuda deles, podemos traçar os discriminantes como eixos no gráfico de dispersão definido pelas variáveis originais (os vetores próprios, como eixos no espaço dessas variáveis, não são ortogonais).V
Os coeficientes ou pesos discriminantes não padronizados são simplesmente os autovetores em escala . Estes são os coeficientes de predição linear de discriminantes pelas variáveis originais centralizadas. Os valores das próprias funções discriminantes (pontuações discriminantes) sãoXC, ondeXsão as variáveis originais centralizadas (insira dados multivariados com cada coluna centralizada). Discriminantes não são correlacionados. E quando calculados pela fórmula acima, eles também têm a propriedade de que sua matriz de covariância dentro da classe é a matriz de identidade.C=N−k−−−−−√ VXCX
Termos constantes opcionais que acompanham os coeficientes não padronizados e permitem descentrar os discriminantes se as variáveis de entrada tiverem médias diferentes de zero são , onde d i a g ( ˉ X ) é a matriz diagonal das variáveis p significa e ∑ p é a soma entre as variáveis.C0=−∑pdiag(X¯)Cdiag(X¯)∑p
Nos coeficientes discriminantes padronizados , a contribuição das variáveis para um discriminante é ajustada ao fato de que as variáveis têm diferentes variações e podem ser medidas em diferentes unidades; (onde diag (Sw) é uma matriz diagonal com a diagonal deSw). Apesar de "padronizados", esses coeficientes podem ocasionalmente exceder 1 (portanto, não se confunda). Se as variáveis de entrada foram padronizadas em z dentro de cada classe separadamente, coeficientes padronizados = variáveis não padronizadas. Coeficientes podem ser usados para interpretar os discriminantes.K=diag(Sw)−−−−−−−−√VSw
R=diag(Sw)−1SwV
Veja a saída completa da fase de extração da análise discriminante dos dados da íris aqui .
Leia esta boa resposta posterior, que explica um pouco mais formalmente e detalha as mesmas coisas que eu fiz aqui.
Esta questão lida com a questão da padronização de dados antes de executar o LDA.