Um preditor do Naive Bayes faz suas previsões usando esta fórmula:
onde é um fator de normalização. Isso requer a estimativa dos parâmetros partir dos dados. Se fizermos isso com smoothing, obteremos a estimativaP ( X i = x i | Y = y ) k
onde há valores possíveis para . Eu estou bem com isso. No entanto, para o anterior, temosX i
onde há exemplos no conjunto de dados. Por que não suavizamos também o anterior? Ou melhor, não podemos suavizar a anterior? Se sim, qual parâmetro de suavização escolhemos? Parece um pouco bobo também escolher , pois estamos fazendo um cálculo diferente. Existe um consenso? Ou isso não importa muito?