Os classificadores Naive Bayes são uma escolha popular para problemas de classificação. Existem muitas razões para isso, incluindo:
- "Zeitgeist" - amplo conhecimento após o sucesso dos filtros de spam, cerca de dez anos atrás
- Fácil de escrever
- O modelo do classificador é rápido de construir
- O modelo pode ser modificado com novos dados de treinamento sem precisar reconstruir o modelo
No entanto, eles são "ingênuos" - isto é, assumem que os recursos são independentes - isso contrasta com outros classificadores, como os classificadores Maximum Entropy (que são lentos na computação).
Normalmente, a suposição de independência não pode ser assumida e, em muitos casos (incluindo a maioria?), Incluindo o exemplo de filtro de spam, ela está simplesmente errada.
Então, por que o Naive Bayes Classifier ainda funciona muito bem nessas aplicações, mesmo quando os recursos não são independentes um do outro?