Atualmente, estou procurando conjuntos de dados rotulados para treinar um modelo para extrair entidades nomeadas de texto informal (algo semelhante a tweets). Como muitas vezes faltam letras maiúsculas e minúsculas nos documentos do meu conjunto de dados, estou procurando dados fora do domínio um pouco mais "informais" do que os artigos de notícias e os periódicos que muitos dos sistemas de reconhecimento de entidades de última geração de hoje em dia são treinado em.
Alguma recomendação? Até agora, só consegui localizar 50k tokens do twitter publicados aqui .