Álgebra de LDA. Poder de discriminação de Fisher de uma variável e Análise Discriminante Linear

Pelo visto,

a análise de Fisher visa maximizar simultaneamente a separação entre classes, enquanto minimiza a dispersão dentro da classe. Uma medida útil do poder de discriminação de uma variável é, por conseguinte, dada pela quantidade diagonal: $B_{ii}/W_{ii}$ .

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Eu entendo que o tamanho ( p x p) das matrizes Entre ( B ) e Dentro da Classe ( W ) é dado pelo número de variáveis de entrada p,. Diante disso, como pode $B_{ii}/W_{ii}$ ser uma "medida útil do poder de discriminação" de uma única variável? São necessárias pelo menos duas variáveis para construir as matrizes B e W, para que os respectivos traços representem mais de uma variável.

Update: Estou certo em pensar que $B_{ii}/W_{ii}$ não é um traço ao longo de um traço, onde a soma é implícito, mas o elemento matriz $B_{ii}$ dividido por $W_{ii}$ ? Atualmente, é a única maneira de conciliar a expressão com o conceito.

— categoria
fonte

Aqui está um pequeno conto sobre a Análise Discriminante Linear (LDA) como resposta à pergunta.

Quando temos uma variável grupos (classes) a serem discriminados, isso é ANOVA. O poder de discriminação da variável é , ou $k$ $SS_\text{between groups} / SS_\text{within groups}$ $B/W$ .

Quando temos variáveis , isso é MANOVA. Se as variáveis não estão correlacionados nem na amostra total, nem dentro dos grupos, em seguida, o poder de discriminação acima, , é calculada de forma análoga e pode ser escrita como , onde é a matriz de dispersão dentro de cada grupo reunido (ou seja, a soma de matrizes SSCP das variáveis, centrado sobre o centróide dos respectivos grupos); $p$ $B/W$ $trace(\bf{S_b})$ $/trace(\bf{S_w})$ $\bf{S_w}$ $k$ p x p $\bf{S_b}$ é o entre-grupo matriz de dispersão , onde é a matriz de dispersão para os dados inteiros (SSCP matriz das variáveis centrado sobre o grande centróide (A "matriz de dispersão" é apenas uma matriz de covariância sem devidedness. por sample_size-1.) $=\bf{S_t}-\bf{S_w}$ $\bf{S_t}$

Quando há alguma correlação entre as variáveis - e, geralmente, não é - o acima é expressa por , que não é mais um escalar mas uma matriz. Isso simplesmente devido a que existem variáveis discriminativos escondidos por trás dessa discriminação "geral" e, em parte, partilha-lo. $B/W$ $\bf{S_w^{-1} S_b}$ $p$

Agora, podemos submergir no MANOVA e decompor em variáveis latentes novas e mutuamente ortogonais (seu número é ) chamadas funções discriminantes ou discriminantes - sendo o primeiro o mais forte discriminador, o segundo sendo o próximo atrás, etc. Assim como fazemos na análise de componentes do Pricipal. Substituímos as variáveis correlacionadas originais por discriminantes não correlacionados, sem perda de poder discriminativo. Como cada próximo discriminante é cada vez mais fraco, podemos aceitar um pequeno subconjunto do primeiro $\bf{S_w^{-1} S_b}$ $min(p,k-1)$ $m$ discriminantes sem grande perda de poder discriminativo (novamente, semelhante à forma como usamos o PCA). Essa é a essência da ADL e da técnica de redução de dimensionalidade (a ADL também é uma técnica de classificação de Bayes, mas esse é um tópico totalmente separado).

Assim, a LDA se assemelha ao PCA. O PCA decompõe "correlação", o LDA decompõe "separação". No LDA, como a matriz acima que expressa "separação" não é simétrica, um truque algébrico de desvio é usado para encontrar seus autovalores e autovetores . Eigenvalue de cada função discriminante (uma variável latente) é o seu poder discriminativo I foi dizendo sobre no primeiro parágrafo. Além disso, vale ressaltar que os discriminantes, embora não correlacionados, não são geometricamente ortogonais como eixos desenhados no espaço variável original. $^1$ $B/W$

Alguns tópicos potencialmente relacionados que você pode querer ler:

O LDA é MANOVA "aprofundado" na análise da estrutura latente e é um caso particular de análise de correlação canônica (equivalência exata entre eles como tal ). Como o LDA classifica objetos e quais são os coeficientes de Fisher. (Eu vinculo apenas às minhas próprias respostas atualmente, como as lembro, mas há muitas respostas boas e melhores de outras pessoas neste site também).

cálculos da fase de extração de LDAsão os seguintes. Os autovalores ( ) de são os mesmos da matriz simétrica , onde é araizdeCholeskyde : uma matriz triangular superior na qual . Quanto aos vetores próprios de , eles são dados por $^1$ $\bf L$ $\bf{S_w^{-1} S_b}$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$ $\bf{S_w}$ $\bf{U'U=S_w}$ $\bf{S_w^{-1} S_b}$ - usando linguagem de baixo nível - mais rápido do que usando uma função genérica padrão "inv" de pacotes.) , ondesão os vetores próprios da matriz acima . (Nota:, sendo triangular,pode ser invertido $\bf{V=U^{-1} E}$ $\bf E$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$

O método descrito para solução alternativa de composição de é realizado em alguns programas (no SPSS, por exemplo), enquanto em outros programas é realizado um método de "quase-zca-whitening" que, sendo um pouco mais lento , fornece os mesmos resultados e é descrito em outro lugar . Para resumi-lo aqui: obter matriz ZCA-branqueamento de - o quadrados simétrico raiz. (o que é feito através de eigendecomposition); em seguida, eigendecomposition de $\bf{S_w^{-1} S_b}$ $\bf{S_w}$ $\bf S_w^{-1/2}$ (o qual é uma matriz simétrica) produz valores próprios discriminantese vectores próprios, pelo que os vectores próprios discriminantes. O método de "quase-branqueamento zca" pode ser reescrita para ser feito através do singular valor-decomposição do conjunto de dados Casewise em vez de trabalhar comematrizes de dispersão; isso adiciona precisão computacional (o que é importante em situações de quase singularidade), mas sacrifica a velocidade. $\bf S_w^{-1/2} S_b S_w^{-1/2}$ $\bf L$ $\bf A$ $\bf V= S_w^{-1/2} A$ $\bf S_w$ $\bf S_b$

OK, vejamos as estatísticas geralmente calculadas no LDA. As correlações canônicas correspondentes aos valores próprios são . Considerando valores próprios de uma discriminante éda ANOVA de que discriminante, correlação canónica ao quadrado é(quadrados a soma de-T totais =) de que ANOVA. $\bf \Gamma = \sqrt{L/(L+1)}$ $B/W$ $B/T$

Se você normalizar (para SS = 1) colunas de autovetores , esses valores poderão ser vistos como os cossenos de direção da rotação de eixos-variáveis em eixos-discriminantes; portanto, com a ajuda deles, podemos traçar os discriminantes como eixos no gráfico de dispersão definido pelas variáveis originais (os vetores próprios, como eixos no espaço dessas variáveis, não são ortogonais). $\bf V$

Os coeficientes ou pesos discriminantes não padronizados são simplesmente os autovetores em escala . Estes são os coeficientes de predição linear de discriminantes pelas variáveis originais centralizadas. Os valores das próprias funções discriminantes (pontuações discriminantes) são, ondesão as variáveis originais centralizadas (insira dados multivariados com cada coluna centralizada). Discriminantes não são correlacionados. E quando calculados pela fórmula acima, eles também têm a propriedade de que sua matriz de covariância dentro da classe é a matriz de identidade. $\bf {C}= \it \sqrt{N-k} ~\bf V$ $\bf XC$ $\bf X$

Termos constantes opcionais que acompanham os coeficientes não padronizados e permitem descentrar os discriminantes se as variáveis de entrada tiverem médias diferentes de zero são , onde é a matriz diagonal das variáveis p significa e é a soma entre as variáveis. $\bf {C_0} \it = -\sum^p diag(\bar{X}) \bf C$ $diag(\bar{X})$ $\sum^p$

Nos coeficientes discriminantes padronizados , a contribuição das variáveis para um discriminante é ajustada ao fato de que as variáveis têm diferentes variações e podem ser medidas em diferentes unidades; (onde diag (Sw) é uma matriz diagonal com a diagonal de). Apesar de "padronizados", esses coeficientes podem ocasionalmente exceder 1 (portanto, não se confunda). Se as variáveis de entrada foram padronizadas em z dentro de cada classe separadamente, coeficientes padronizados = variáveis não padronizadas. Coeficientes podem ser usados para interpretar os discriminantes. $\bf {K} \it = \sqrt{diag \bf (S_w)} \bf V$ $\bf S_w$

$\bf R= \it diag \bf (S_w)^{-1} \bf S_w V$

Veja a saída completa da fase de extração da análise discriminante dos dados da íris aqui .

Leia esta boa resposta posterior, que explica um pouco mais formalmente e detalha as mesmas coisas que eu fiz aqui.

Esta questão lida com a questão da padronização de dados antes de executar o LDA.

— ttnphns
fonte

X

$X$

Sim. No entanto, a palavra "abordagem de Fisher" é ambígua. Pode significar 2 coisas: 1) LDA (para 2 classes) em si ; 2) Funções de classificação de Fisher na LDA.

— ttnphns