A previsão de Bayes da probabilidade de associação de classe posterior do LDA também segue uma curva logística.
[Efron, B. A eficiência da regressão logística em comparação com a análise discriminante normal, J Am Stat Assoc, 70, 892-898 (1975).]
Embora esse artigo mostre que a eficiência relativa do LDA é superior à LR se as suposições do LDA forem atendidas (Ref: artigo de Efron acima, último ponto do @tthnps), de acordo com os Elementos de Aprendizagem Estatística na prática, quase não há diferença.
[Hastie, T. e Tibshirani, R. e Friedman, J. Os Elementos da Aprendizagem Estatística; Mineração de dados, inferência e predição Springer Verlag, Nova York, 2009]
Essa enorme eficiência relativa do LDA ocorre principalmente em casos assintóticos, onde o erro absoluto é praticamente desprezível.
[Harrell, FE & Lee, KL Uma comparação da discriminação de análise discriminante e regressão logística sob normalidade multivariada, Bioestatística: Estatística em Biomédica, Saúde Pública e Ciências Ambientais, 333-343 (1985).]
Embora na prática eu tenha encontrado situações de alta dimensão e tamanho amostral pequeno, nas quais o LDA parece superior (apesar de a normalidade multivariada e as suposições da matriz de covariância igual serem visivelmente não atendidas).
[ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. & Salzer, classificação espectroscópica de R. Raman de tecidos de astrocitoma: usando informações de referência suaves., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]
Mas observe que, em nosso artigo, a LR está possivelmente lutando com o problema de que direções com separabilidade (quase) perfeita podem ser encontradas. O LDA, por outro lado, pode ser menos severamente ajustado.
As famosas suposições para a LDA são necessárias apenas para provar a otimização. Se eles não forem atendidos, o procedimento ainda pode ser uma boa heurística.
Uma diferença que é importante para mim na prática, porque os problemas de classificação em que trabalho, às vezes / frequentemente acabam por não ser claramente esses problemas de classificação: o LR pode ser feito facilmente com dados nos quais a referência tem níveis intermediários de associação à classe. Afinal, é uma técnica de regressão .
[veja o artigo acima]
Você pode dizer que a LR concentra mais do que a LDA em exemplos próximos ao limite da classe e basicamente desconsidera os casos na "parte traseira" das distribuições.
Isso também explica por que é menos sensível a outliers (ou seja, aqueles na parte de trás) do que a LDA.
(máquinas de vetores de suporte seriam um classificador que vai nessa direção até o fim: aqui tudo menos os casos na fronteira são desconsiderados)