Estou procurando um corpus de texto grande (> 1000) para fazer o download. De preferência com notícias do mundo ou algum tipo de reportagem . Eu encontrei apenas um com patentes. Alguma sugestão?
Estou procurando um corpus de texto grande (> 1000) para fazer o download. De preferência com notícias do mundo ou algum tipo de reportagem . Eu encontrei apenas um com patentes. Alguma sugestão?
Respostas:
E as wikinews ? Aqui está o despejo de banco de dados mais recente que eu poderia encontrar: http://dumps.wikimedia.org/enwikinews/20111120/
Você provavelmente deseja a versão "Todas as páginas, apenas as versões atuais".
O corpus de texto reuters é um clássico no campo e pode ser encontrado aqui
http://endb-consolidated.aihit.com/datasets.htm contém 10.000 empresas com descrições textuais
Se a recência não for um problema, você pode tentar
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
e há muitos outros conjuntos de dados semelhantes no infochimp, dependendo do seu orçamento.
Atenciosamente, Andy.
Se você quiser n-gramas pré-computados, tente o arquivo do Google Livros: