Muitas vezes, criamos dicionários em fóruns online para palavras típicas usadas em um fórum, o usuário responde no seguinte formato em um fórum phpbb
termo: definição
portanto, o trabalho é coletar todas essas entradas exclusivas, eliminando o ruído, normalmente copiamos a página inteira e a classificamos para remover o ruído:
Registrado: sexta-feira, 24 de janeiro de 2014 21:49 Registrado: sexta-feira, 5 de junho de 2009 17:57 Registrado: segunda-feira 07 de julho de 2014 7:20 Registrado: segunda-feira 07 de julho de 2014 7:20 Registrado em: Seg Nov 25, 2013 6:46 am Mensagens: 49 Mensagens: 49 Mensagens: 49 Mensagens: 49 Mensagens: 5 Mensagens: 8152 Progessium: Um peptídeo leve necoliye
Então, como uma linha de comando ou um script python classifica o conteúdo acima, removendo o ruído e obtendo apenas entradas em ordem alfabética, como:
Progessium: Um peptídeo leve necoliye
nejc.skoberne.net/2011/02/…
—
STTR
nós não temos acesso de administrador para isso, só quero raspar o html
—
suuser
Use o Adobe Acrobat Pro, como variante)
—
STTR 12/04