Conjunto de dados para reconhecimento de entidade nomeada em texto informal

18

Atualmente, estou procurando conjuntos de dados rotulados para treinar um modelo para extrair entidades nomeadas de texto informal (algo semelhante a tweets). Como muitas vezes faltam letras maiúsculas e minúsculas nos documentos do meu conjunto de dados, estou procurando dados fora do domínio um pouco mais "informais" do que os artigos de notícias e os periódicos que muitos dos sistemas de reconhecimento de entidades de última geração de hoje em dia são treinado em.

Alguma recomendação? Até agora, só consegui localizar 50k tokens do twitter publicados aqui .

dataset nlp

— Madison May
fonte

2

Recomende perguntar em opendata.stackexchange.com

— Air

@Madison May. Você encontrou um conjunto de dados? Estou procurando por algo parecido. Obrigado.

— 31414 ahoffer

Eu tive que me contentar com o twitter ner corpus da U. Washington (link para o post original).

— 31414 Madison

FYI Corpus de texto com marcas (jornais ingleses ou qualquer texto marcado)

— Franck Dernoncourt

tem algum corpus inglês anotado relacionado?

— Achyuta nanda sahoo

6

Pelo que entendi, estas são as propriedades que você procura em um conjunto de dados de exemplo:

Dados de texto
Deve ser informal, ou seja, ter erros de digitação, gírias e basicamente algo não editado profissionalmente
Algo diferente do Twitter (não culpo você, o Twitter é uma fonte de dados de exemplo útil e muito usada em mineração de texto)

Aqui estão algumas recomendações:

E-mails do corpus SpamAssassin - observe que os conjuntos de dados "presunto" (não spam) e spam estão disponíveis
conjunto de dados de microblogPCU da UCI, que é extraído dos microblogs dos usuários do Sina Weibo - observe que os dados de texto bruto são uma mistura de chinês e inglês (você pode executar a tradução automática do chinês, filtrar apenas o inglês ou usá-lo como é)
O Amazon Commerce revisa o conjunto de dados da UCI
No conjunto de dados bag-o-words , tente usar os emails da Enron
O conjunto de dados de vinte grupos de notícias
Esta bela coleção de spam por SMS
Você sempre pode raspar (extrair) seus próprios dados de texto da Internet; Eu não tenho certeza que a linguagem ou pacote estatístico que você está usando, mas pacotes baseados em XPath estão disponíveis em R ( rvest, scrapeR, etc) e Python para alcançar este

— Hack-R
fonte

1

No entanto, algum desses conjuntos de dados é anotado com entidades nomeadas? Acredito que é isso que o OP estava procurando.

— Sr. Phil

3

Verifique estes:

Repositório de domínios de teste para extração de informações: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( espelho )

Link Atualizado:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
fonte

1

Atualize esses links, pois nenhum deles está mais funcionando.

— Phil Phil

0

Algumas das fontes que eu usei:

O clássico CONLL Corpus: CONLL Dataset
Uma fonte Kaggle que vale a pena tentar: Kaggle NER Corpus
OntoNotes versão 5.0: notas sobre
Tarefa de reconhecimento de entidades biológicas : entidades biológicas
Outro conjunto de dados relacionado a email: Conjunto de dados de email da Enron

Eu acho que esses conjuntos de dados serão de grande ajuda para sua tarefa

— Gyan Ranjan
fonte