Onde encontrar um corpus de texto grande? [fechadas]


16

Estou procurando um corpus de texto grande (> 1000) para fazer o download. De preferência com notícias do mundo ou algum tipo de reportagem . Eu encontrei apenas um com patentes. Alguma sugestão?


Este tópico parece estar fora do tópico. Consulte meta.stats.stackexchange.com/questions/1032/… .
whuber

Esta questão parece estar fora de tópico, porque se trata de encontrar um conjunto de dados, em vez de fazer análises estatísticas.
Peter Flom - Reinstate Monica

2
Bem, isso é estranho, porque essas perguntas e respostas são realmente úteis.
Sideshow Bob

@guaka, por favor, não bote essas postagens antigas para edições menores, principalmente uma que está fechada. É verdade que a nossa preferência de estilo não é ter "agradecimentos", mas por algo tão pequeno, nós simplesmente deixamos.
gung - Restabelece Monica

Respostas:




6

O corpus de texto reuters é um clássico no campo e pode ser encontrado aqui


Não é o corpus mais interessante (ou diverso). A licença também é restritiva em relação ao Wikileaks (documentos de domínio público dos EUA) ou aos wikinews.
Ariddell 17/05

@ariddell Eu concordo, mas é comumente usado em exemplos introdutórios de PNL, e é grande o suficiente para ser útil no aprendizado, mas pequeno o suficiente para ser analisado em um bom laptop.
Richiemorrisroe #



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.