A filtragem de spam, especialmente no email, foi revolucionada pelas redes neurais. Aqui estão alguns documentos que fornecem uma boa leitura sobre o assunto:
Sobre redes neurais e o futuro do spam AC Cosoi, MS Vlad, V. Sgarciu
http://ceai.srait.ro/index.php/ceai/article/viewFile/18/8
Detecção Inteligente de Filtro de Spam com Base em Palavras Usando Redes Multi-Neurais Ann Nosseir, Khaled Nagati e Islam Taj-Eddin
http://www.ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf
Detecção de spam usando redes neurais adaptativas: teoria da ressonância adaptativa David Ndumiyana, Richard Gotora e Tarisai Mupamombe
http://onlineresearchjournals.org/JPESR/pdf/2013/apr/Ndumiyana%20et%20al.pdf
EDIT: A intuição básica por trás do uso de uma rede neural para ajudar na filtragem de spam é fornecer um peso aos termos com base na frequência com que eles estão associados ao spam.
As redes neurais podem ser treinadas mais rapidamente em um ambiente supervisionado - você fornece explicitamente a classificação da sentença no ambiente de conjunto de treinamento. Sem entrar no âmago da questão, a idéia básica pode ser ilustrada com estas frases:
Text = "Como a perda da patente do Viagra afetará a Pfizer", Spam = false Text = "Viagra barato compre agora", Spam = true Text = "Farmácia on-line Viagra Cialis Lipitor", Spam = true
Para uma rede neural de dois estágios, o primeiro estágio calculará a probabilidade de spam com base na existência da palavra na frase. Então, do nosso exemplo:
viagra => 66% buy => 100% Pfizer => 0% etc.
Então, para o segundo estágio, os resultados no primeiro estágio são usados como variáveis no segundo estágio:
viagra & buy => 100% Pfizer & viagra => 0%
Essa idéia básica é executada para muitas das permutações de todas as palavras em seus dados de treinamento. Os resultados finais, uma vez treinados, são basicamente apenas uma equação que, com base no contexto das palavras na frase, pode atribuir uma probabilidade de spam. Defina o limite de spam e filtre os dados acima do limite.