Tudo bem, primeiro, não há apenas evidências positivas, mas também evidências negativas. Algumas palavras tornam muito provável que uma mensagem de email seja spam, outras tornam real. Outras palavras tornam muito provável que uma mensagem seja spam por sua ausência , enquanto outras têm o efeito oposto. Por exemplo, se você pesquisa a drosophila para ganhar a vida e se corresponde frequentemente a colegas sobre ela, a presença desse termo é quase como uma senha, porque nenhuma campanha de correio em massa poderá personalizar seus textos de acordo com seus hábitos - seria destruir as economias de escala que tornam o spam viável em primeiro lugar.
Além disso, o desempenho de um filtro não pode ser medido com apenas uma métrica. Detectar spam é muito fácil, mesmo trivial, se você simplesmente classificar tudo como spam - mas os falsos positivos (detectar email real como spam) são intoleravelmente altos. A detecção de nada resolve esse problema, mas os falsos negativos (classificando as amostras ruins como boas) tornam sua vida miserável. Um bom filtro deve atingir bons valores em ambas as contagens, o que o torna muito mais complicado do que apenas um detector super sensível de alguma coisa.
Portanto, desde o início, você não possui apenas uma 'Lista de palavrões', mas pelo menos quatro listas, e não apenas um critério, mas pelo menos dois. Até agora, a filtragem bayesiana é realmente o método mais simples que faz isso bem. Se você encontrar um melhor, por todos os meios, vamos ouvi-lo.