Muitos de nós precisam lidar com a entrada do usuário, consultas de pesquisa e situações em que o texto de entrada pode conter palavrões ou linguagem indesejável. Muitas vezes, isso precisa ser filtrado.
Onde podemos encontrar uma boa lista de palavrões em vários idiomas e dialetos?
Existem APIs disponíveis para fontes que contêm boas listas? Ou talvez uma API que simplesmente diga "sim, isso está limpo" ou "não, isso está sujo" com alguns parâmetros?
Quais são alguns bons métodos para capturar pessoas tentando enganar o sistema, como $$, azz ou a55?
Pontos de bônus se você oferecer soluções para PHP. :)
Editar: resposta a respostas que dizem simplesmente evitar o problema programático:
Eu acho que existe um lugar para esse tipo de filtro quando, por exemplo, um usuário pode usar a pesquisa de imagens públicas para encontrar fotos que são adicionadas a um pool de comunidade sensível. Se eles puderem procurar "pênis", provavelmente obterão muitas fotos, sim. Se não queremos imagens disso, impedir a palavra como um termo de pesquisa é um bom porteiro, embora não seja um método infalível. Obter a lista de palavras em primeiro lugar é a verdadeira questão.
Então, eu estou realmente me referindo a uma maneira de descobrir que um único token está sujo ou não e, em seguida, simplesmente o desaprovo. Eu não me incomodaria em impedir um sentimento como a referência totalmente hilária de "girafa de pescoço comprido". Nada que você possa fazer lá. :)