Eu estava lendo a Classificação Naive Bayes hoje. Eu li, sob o título Estimativa de parâmetros, com 1 suavização :
Vamos referem-se a uma classe (como positiva ou negativa), e deixe referem-se a um símbolo ou palavra.
O estimador de probabilidade máxima para é
Essa estimativa de pode ser problemática, pois nos daria probabilidade para documentos com palavras desconhecidas. Uma maneira comum de resolver esse problema é usar a suavização de Laplace.
Seja V o conjunto de palavras no conjunto de treinamento, adicione um novo elemento (para desconhecido) ao conjunto de palavras.
Definir
onde se refere ao vocabulário (as palavras no conjunto de treinamento).
Em particular, qualquer palavra desconhecida terá probabilidade
Minha pergunta é a seguinte: por que nos incomodamos com essa suavização de Laplace? Se essas palavras desconhecidas que encontramos no conjunto de testes tiverem uma probabilidade que é obviamente quase zero, ou seja, , qual é o sentido de incluí-los no modelo? Por que não ignorar e excluí-los?