Estou procurando algumas dicas sobre como selecionar uma lista de palavras irrelevantes. Alguém sabe / alguém pode recomendar um bom método para extrair listas de palavras de parada do próprio conjunto de dados para pré-processamento e filtragem?
Os dados:
uma quantidade enorme de texto humano de tamanho variável (termos de busca e frases inteiras (até 200 caracteres)) ao longo de vários anos. O texto contém muito spam (como entrada de máquina de bots, palavras únicas, pesquisas estúpidas, pesquisas de produtos ...) e apenas alguns% parecem ser úteis. Percebi que às vezes (apenas muito raramente) as pessoas pesquisam meu lado fazendo perguntas muito legais. Essas perguntas são tão legais que acho que vale a pena examiná-las mais profundamente para ver como as pessoas pesquisam ao longo do tempo e quais tópicos as pessoas se interessaram em usar meu site.
Meu problema:
é que estou realmente lutando com o pré-processamento (ou seja, eliminando o spam). Eu já tentei algumas listas de palavras irrelevantes da Web (NLTK etc.), mas elas realmente não atendem às minhas necessidades em relação a esse conjunto de dados.
Obrigado por suas idéias e discussão pessoal!
stop words
. Stop-wrods é uma lista da maioria das palavras em alguma língua, por exemplo I
, the
, a
e assim por diante. Você apenas removerá essas palavras do seu texto antes de começar a treinar seu algoritmo, que tenta identificar qual texto é spam ou não. Ele não ajudou a identificar qual texto é spam ou não; pode melhorar seu algoritmo de aprendizado.