Origens da lista de palavras


11

Estou procurando uma fonte de substantivos, advérbios, adjetivos e verbos em várias línguas.

Eu gostaria que as listas estivessem divididas e não precisassem passar pelo OED (e equivalentes não ingleses) manualmente, recriando as listas.

Eu realmente não me importo com definições, e entendo que algumas palavras podem ser várias partes do discurso - tudo bem - palavras como "many" podem ser um substantivo ou adjetivo e podem aparecer nas duas listas.

Alguém aqui conhece essa fonte? Caso contrário, alguém poderá me apontar na direção certa?

Eu estou bem com o formato sendo um dos seguintes (ou semelhante se as pessoas tiverem ideias):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • arquivos de texto simples como "substantivos", "verbos" etc.
  • uma tabela mysql
  • etc

Respostas:



4

Isso pode não ajudar em nada, eu não sei. Mas o MediaWiki tem uma API para listar todas as páginas pertencentes a uma determinada categoria. Você pode tentar usá-lo no Wiktionary.org.

Notas:

  • Cada consulta retorna apenas 500 resultados. No entanto, no final, também especifica um parâmetro a ser usado em outra consulta para obter os próximos 500 resultados.
  • Inclui tudo na categoria especificada, até outras subcategorias.
  • Os resultados parecem estar em ordem alfabética, embora tudo que comece com uma letra maiúscula chegue antes de qualquer letra minúscula.

Exemplos:

Espero que ajude, é o que eu poderia inventar.


1

Em segundo lugar, sugerirei @ wordknikqa do wordnet, mas sugiro que você verifique as APIs deles;

HISTÓRIA : Eu tive um curso de IA que teve uma parte de análise de linguagem; Usei as APIs perl da wordnet para pesquisar automaticamente os três principais tipos de definição e classificar o fraseado disso quase em tempo real END OF STORYTIME

Existem APIs disponíveis para vários idiomas

FYI: O projeto recebeu um A +

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.