Você pode usar os despejos de dados da Wikipedia . O despejo de dados XML da Wikipedia em inglês que inclui apenas as revisões atuais é de aproximadamente 31 GB, então eu diria que seria um bom começo para sua pesquisa. O despejo de dados é muito grande, portanto, considere extrair os textos do XML com um analisador SAX. O WikiXMLJ é uma API Java útil ajustada para a Wikipedia.
E, é claro, sempre há os despejos de dados do Stack Exchange . O mais recente inclui todos os sites públicos não-beta do Stack Exchange e sites meta correspondentes até setembro de 2011. Mas, naturalmente, as postagens do Stack Exchange estão concentradas no escopo de cada site, portanto, provavelmente não serão tão generalizadas quanto você deseja. As meta-postagens são um pouco mais gerais, portanto, você pode considerá-las além da Wikipedia.
Eu não acho que você encontrará algo melhor, especialmente em texto simples. Vários conjuntos de dados abertos estão disponíveis no Data Hub , mas acho que o despejo de dados da Wikipedia em inglês está muito próximo do que você está procurando.