Estou trabalhando em um aplicativo para ajudar as pessoas a aprender inglês como segunda língua. Eu validei que as frases ajudam no aprendizado de um idioma, fornecendo contexto extra. Eu fiz isso realizando uma pequena pesquisa em uma sala de aula com 60 alunos.
Eu extraí mais de cem mil frases da Wikipedia para várias palavras em inglês (incluindo as palavras Barrons'800 e 1000 palavras mais comuns em inglês)
Dados completos estão disponíveis em https://buildmyvocab.in
Para manter a qualidade do conteúdo, filtrava frases com mais de 160 caracteres, pois poderiam ser difíceis de entender.
Como próximo passo, pretendo automatizar o processo de classificação deste conteúdo na ordem da facilidade de entendimento. Eu mesmo sou um falante de inglês não nativo. Quero saber quais recursos posso usar para separar frases fáceis de frases difíceis.
Além disso, você acha que isso é possível?