Classificar linhas para formar uma lista de dicionário de palavras exclusiva


1

Muitas vezes, criamos dicionários em fóruns online para palavras típicas usadas em um fórum, o usuário responde no seguinte formato em um fórum phpbb

termo: definição

portanto, o trabalho é coletar todas essas entradas exclusivas, eliminando o ruído, normalmente copiamos a página inteira e a classificamos para remover o ruído:

Registrado: sexta-feira, 24 de janeiro de 2014 21:49
Registrado: sexta-feira, 5 de junho de 2009 17:57
Registrado: segunda-feira 07 de julho de 2014 7:20
Registrado: segunda-feira 07 de julho de 2014 7:20
Registrado em: Seg Nov 25, 2013 6:46 am

Mensagens: 49
Mensagens: 49
Mensagens: 49
Mensagens: 49
Mensagens: 5
Mensagens: 8152
Progessium: Um peptídeo leve necoliye


Então, como uma linha de comando ou um script python classifica o conteúdo acima, removendo o ruído e obtendo apenas entradas em ordem alfabética, como:

Progessium: Um peptídeo leve necoliye



nós não temos acesso de administrador para isso, só quero raspar o html
suuser



Use o Adobe Acrobat Pro, como variante)
STTR 12/04
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.