Um monte de spam está passando pelo filtro no servidor de email que eu corro com o truque relativamente simples de começar com algumas linhas de perda de peso (incrivelmente óbvias) ou outro texto fraudulento na parte superior, seguido por um corpo maior de texto da documentação de programação - ou, o pior de tudo, texto raspado do Stack Exchange . Na melhor das hipóteses, Spamassassin considera isso como BAYES_50, e acontece que o restante das mensagens são construídas com cuidado o suficiente para que não atinjam outros gatilhos. (Por exemplo, os cabeçalhos são mínimos e corretos.) Freqüentemente, os trechos incluídos estão alinhados o suficiente com meus interesses legítimos para que a mensagem geral seja classificada como BAYES_00, porque os tokens com muito spam são sobrecarregados por pepitas suculentas de solução de problemas de administrador de sistema.
A parte superior é tão obviamente spam (e, de fato, tende a ser muito semelhante às mensagens de spam recebidas e treinadas anteriormente) que fico meio surpreso que esteja passando - mas é claro. Parece um passe separado que marcou as 25 (mais ou menos) linhas principais da mensagem e pesou que resolveria fortemente o problema. Existe uma maneira de fazer isso?
Várias pessoas sugeriram a criação de expressões regulares personalizadas. Eu não quero entrar nisso, pois esta é uma batalha perdida constante. É o que as pessoas faziam antes que a classificação de spam bayesiana fosse amplamente difundida, e geralmente era terrível. Nenhum humano pode acompanhar . Não é muito mais eficaz do que apenas pressionar a tecla Delete para cada mensagem de spam e muito mais trabalho da minha parte.
A filtragem de spam bayesiana funciona. Até funciona nesse spam, se eu dividir a parte " acima da dobra " e apenas analisar essa parte, com a isca / palha removida. A questão é: como posso fazer com que o Spamassassin faça isso?