Três versões da análise discriminante: diferenças e como usá-las

Alguém pode explicar as diferenças e dar exemplos específicos de como usar essas três análises?

LDA - Análise Discriminante Linear
FDA - Análise Discriminante de Fisher
QDA - Análise Quadrática Discriminante

Procurei em todos os lugares, mas não consegui encontrar exemplos reais com valores reais para ver como essas análises são usadas e os dados calculados, apenas muitas fórmulas difíceis de entender sem exemplos reais. Como eu tentei entender, era difícil distinguir quais equações / fórmulas pertenciam ao LDA e quais ao FDA.

Por exemplo, digamos que haja esses dados:

x1 x2 class
1  2  a
1  3  a
2  3  a
3  3  a
1  0  b
2  1  b
2  2  b

E digamos alguns dados de teste:

Então, como usar esses dados com todas essas três abordagens? Seria melhor ver como calcular tudo manualmente, sem usar algum pacote matemático que calcula tudo nos bastidores.

PS: Encontrei apenas este tutorial: http://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDA . Ele mostra como usar o LDA.

classification discriminant-analysis

— Andrius
fonte

Respostas:

"Análise Discriminante de Fisher" é simplesmente LDA em uma situação de 2 classes. Quando há apenas 2 classes, os cálculos à mão são viáveis e a análise está diretamente relacionada à regressão múltipla. O LDA é a extensão direta da idéia de Fisher em situações de qualquer número de classes e usa dispositivos de álgebra matricial (como composição automática) para computá-lo. Assim, o termo "Análise Discriminante de Fisher" pode ser visto hoje como obsoleto. "Análise Discriminante Linear" deve ser usada em seu lugar. Veja também . A análise discriminante com mais de 2 classes (multi-classe) é canônica por seu algoritmo (extrai dicriminantes como variáveis canônicas); termo raro "Análise Discriminante Canônica"

Fisher usou o que foi então chamado de "funções de classificação de Fisher" para classificar objetos após o cálculo da função discriminante. Atualmente, uma abordagem mais geral de Bayes é usada no procedimento LDA para classificar objetos.

Para seu pedido de explicações sobre o LDA, posso enviar a você minhas respostas: extração no LDA , classificação no LDA , LDA entre os procedimentos relacionados . Também isto , isto , isto perguntas e respostas.

Assim como a ANOVA requer uma suposição de variâncias iguais, a LDA exige uma suposição de matrizes de variância-covariância iguais (entre as variáveis de entrada) das classes. Essa suposição é importante para o estágio de classificação da análise. Se as matrizes diferirem substancialmente, as observações tenderão a ser atribuídas à classe em que a variabilidade é maior. Para superar o problema, o QDA foi inventado. QDA é uma modificação do LDA que permite a heterogeneidade acima das matrizes de covariância das classes.

Se você possui a heterogeneidade (como detectada, por exemplo, pelo teste M de Box) e não possui QDA em mãos, ainda pode usar o LDA no regime de uso de matrizes de covariância individuais (em vez da matriz combinada) dos discriminantes na classificação . Isso resolve parcialmente o problema, embora menos efetivamente do que no QDA, porque - como acabamos de apontar - essas são as matrizes entre os discriminantes e não entre as variáveis originais (cujas matrizes diferem).

Deixe-me sair analisando seus dados de exemplo.

Responder a resposta e comentários de @ zyxue

LDA é o que você definiu como FDA na sua resposta. O LDA primeiro extrai construções lineares (chamadas de discriminantes) que maximizam a separação entre as partes e depois as utiliza para executar a classificação (gaussiana). Se (como você diz) o LDA não estiver vinculado à tarefa de extrair os discriminantes, o LDA pareceria apenas um classificador gaussiano, não seria necessário o nome "LDA".

É o estágio de classificação em que a LDA assume a homogeneidade da normalidade e da variância-covariância das classes. O estágio de extração ou "redução de dimensionalidade" da LDA assume linearidade e homogeneidade de variância-covariância ; as duas suposições juntas tornam possível a "separabilidade linear". (Usamos a matriz pool único para produzir discriminantes que, portanto, possuem matriz de covariância dentro da classe, que nos dá o direito de aplicar o mesmo conjunto de discriminantes para classificar para todas as classes. Se todos os s forem os mesmos, covariâncias de classe são todas iguais, identidade; esse direito de usá-las se torna absoluto.) $S_w$ $S_w$

O classificador gaussiano (o segundo estágio da LDA) usa a regra de Bayes para atribuir observações às classes pelos discriminantes. O mesmo resultado pode ser alcançado através das chamadas funções de classificação linear de Fisher, que utilizam diretamente os recursos originais. No entanto, a abordagem de Bayes baseada em discriminantes é um pouco geral, pois permitirá usar também matrizes de covariância discriminante de classe separada, além da maneira padrão de usar uma, a agrupada. Além disso, permitirá basear a classificação em um subconjunto de discriminantes.

Quando existem apenas duas classes, os dois estágios do LDA podem ser descritos juntos em uma única passagem, porque "extração de latentes" e "classificação de observações" reduzem-se então à mesma tarefa.

— ttnphns
fonte

Acho que me lembro de ter aprendido no meu curso de aprendizado de máquina que o LDA gaussiano de 2 classes assumiu densidades gaussianas e usa a regra MPE bayesiana, enquanto o LDA de Fisher não faz essa suposição gaussiana e altera o critério de otimização para maximizar o SNR. Isso é congruente com a sua resposta?

— Austin

@ Jake Interessado sobre isso também, nesta resposta: stats.stackexchange.com/questions/87975/… , afirma-se que o resultado é o mesmo. Comentários?

— Dole

Você tem certeza de que a "Análise Discriminante de Fisher" é simplesmente uma LDA em uma situação de 2 classes?

— zyxue 8/01

@zyxue, 95% de certeza, mas mesmo assim acho o termo obsoleto. Consulte minha nota de rodapé em stats.stackexchange.com/q/190806/3277 .

— ttnphns

@ ttnphns, fyi, de acordo com youtu.be/hGKt0yy9q_E?t=3010 , o FDA e o LDA são frequentemente misturados na literatura. Uma maneira de distinguir os dois, o FDA é um método de extração de recursos, enquanto o LDA e o QDA são uma técnica de classificação.

— zyxue 24/01

Acho difícil concordar que o FDA seja um LDA para duas classes, como o @ttnphns sugeriu.

Eu recomendo duas palestras muito informativas e bonitas sobre este tópico, pelo professor Ali Ghodsi:

LDA e QDA . Além disso, a página 108 do livro Os Elementos da Aprendizagem Estatística ( pdf ) tem uma descrição da LDA consistente com a palestra.
FDA

Para mim, LDA e QDA são semelhantes, pois são ambas técnicas de classificação com suposições gaussianas. Uma grande diferença entre as duas é que a LDA assume que as matrizes de covariância das duas classes são as mesmas, o que resulta em um limite de decisão linear. Por outro lado, o QDA é menos rigoroso e permite diferentes matrizes de covariância de recursos para diferentes classes, o que leva a um limite de decisão quadrático. Consulte a figura a seguir no scikit-learn para obter uma idéia de como é o limite de decisão quadrática.

Alguns comentários sobre as subparcelas :

Linha superior: quando as matrizes de covariância são realmente as mesmas nos dados, a LDA e a QDA levam aos mesmos limites de decisão.
Linha inferior: quando as matrizes de covariância são diferentes, o LDA leva a um desempenho ruim à medida que sua suposição se torna inválida, enquanto o QDA executa uma classificação muito melhor.

Por outro lado, o FDA é uma espécie muito diferente, não tendo nada a ver com a suposição de Gaussion. O que o FDA tenta fazer é encontrar uma transformação linear para maximizar a distância média entre as classes, minimizando a variação dentro das classes . A segunda palestra explica essa ideia lindamente. Ao contrário do LDA / QDA, o FDA não faz classificação, embora os recursos obtidos após a transformação encontrados pelo FDA possam ser usados para classificação, por exemplo, usando LDA / QDA, SVM ou outros.

— zyxue
fonte

Por favor, veja minha resposta à sua resposta na minha resposta. Não assisti à vídeo aula a que você vincula, portanto, não posso dizer se posso concordar com ela. Não concordo com a interpretação / definição (de LDA vs FDA) que você está dando na resposta. Mas esse - definição dos dois termos - não é um tópico muito importante para mim. É mais importante entender como tudo funciona.

— ttnphns 25/01

Se, no seu entendimento

FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classification

, eu diria que é o que chamo de "fase de extração da LDA". Obviamente, esses recursos extraídos (as funções discriminantes) - você pode usá-los como quiser. Na classificação LDA padrão, eles são usados como classificadores gaussianos.

— ttnphns 25/01

Estou curioso para saber onde você leu que "o LDA extrai primeiro construções lineares (chamadas de discriminantes)" ? Eu pensei que fosse chamado de discriminante linear porque o limite de decisão é linear, o que resulta da suposição de que a matriz de covariância dos recursos é a mesma para diferentes classes. Da mesma forma, o QDA tem um limite de decisão quadrático. Isso também é mostrado nas figuras incorporadas. Além dos vídeos acima, estou

— fazendo

Afinal, acho que estamos falando da mesma coisa, mas é apenas uma maneira de nomear as coisas. Você acha que LDA = feature_extraction + classificação, mas com base em minhas referências, LDA é apenas sobre classificação. A parte feature_extraction aqui é chamada FDA. Importante , não há nada a ver aqui com o número de classes envolvidas aqui. Tanto o LDA quanto o FDA podem lidar com mais de duas classes.

— zyxue 25/01

Podemos nos ater às definições que também são usadas. De qualquer forma, deve-se notar que "construções lineares" e "limites de decisão lineares" estão relacionados, no contexto do DA eles são sobre a mesma coisa. Olhe para a sua foto com a borda da decisão como uma linha reta. Quando você transforma as classes too, elipses para serem esféricas, a função discriminante será precisamente perpendicular à borda. Na verdade, a coisa "primária" aqui é a função discriminante, uma variável, uma dimensão, enquanto o limite de decisão é a borda no espaço dependente da direção dela. O limite de dezembro é "secundário".

— ttnphns 25/01