Como o AdamO sugere no comentário acima, você não pode fazer melhor do que ler o Capítulo 4 do The Elements of Statistical Learning (que chamarei de HTF), que compara o LDA com outros métodos de classificação linear, dando muitos exemplos e também discute o uso da ADL como uma técnica de redução de dimensão na veia da APC que, como mostra a ttnphns, é bastante popular.
Do ponto de vista da classificação, acho que a principal diferença é essa. Imagine que você tem duas classes e deseja separá-las. Cada classe tem uma função de densidade de probabilidade. A melhor situação possível seria se você conhecesse essas funções de densidade, porque seria possível prever a qual classe um ponto pertenceria avaliando as densidades específicas da classe nesse ponto.
Alguns tipos de classificador operam encontrando uma aproximação às funções de densidade das classes. LDA é um desses; supõe que as densidades são multivariadas normais com a mesma matriz de covariância. Essa é uma suposição forte, mas se estiver aproximadamente correta, você obtém um bom classificador. Muitos outros classificadores também adotam esse tipo de abordagem, mas tentam ser mais flexíveis do que assumir a normalidade. Por exemplo, consulte a página 108 de HTF.
Por outro lado, na página 210, o HTF avisa:
Se a classificação é o objetivo final, aprender bem as densidades de classe separadas pode ser desnecessário e, de fato, enganoso.
Outra abordagem é simplesmente procurar um limite entre as duas classes, que é o que o perceptron faz. Uma versão mais sofisticada disso é a máquina de vetores de suporte. Esses métodos também podem ser combinados com a adição de recursos aos dados usando uma técnica chamada kernelization. Isso não funciona com o LDA porque não preserva a normalidade, mas não há problema para um classificador que está apenas procurando por um hiperplano de separação.
A diferença entre o LDA e um classificador que procura um hiperplano de separação é como a diferença entre um teste t e alguma alternativa não paramétrica nas estatísticas comuns. O último é mais robusto (para outliers, por exemplo), mas o primeiro é ideal se suas suposições forem atendidas.
Mais uma observação: vale a pena mencionar que algumas pessoas podem ter razões culturais para usar métodos como LDA ou regressão logística, que podem cuspir obrigatoriamente tabelas ANOVA, testes de hipóteses e tranquilizar coisas assim. LDA foi inventado por Fisher; o perceptron era originalmente um modelo para um neurônio humano ou animal e não tinha conexão com as estatísticas. Também funciona de outra maneira; algumas pessoas podem preferir métodos como máquinas de vetores de suporte, porque possuem o tipo de crédito moderno de ponta que os métodos do século XX simplesmente não conseguem igualar. Isso não significa que eles são melhores. (Um bom exemplo disso é discutido no Machine Learning for Hackers , se bem me lembro.)