Esse é um tipo de acompanhamento para essa pergunta sobre as direções de pesquisa do NLG no campo da lingüística.
Como as ferramentas de assistente pessoal, como Siri, Google Now ou Cortana, executam a Geração de linguagem natural (NLG)? Especificamente, a parte de geração de texto da frase . Não estou interessado na parte de conversão de texto em fala, apenas na parte de geração de texto.
Não estou procurando exatamente como cada um faz isso, pois essas informações provavelmente não estão disponíveis.
Gostaria de saber qual configuração é necessária para implementar a geração de sentenças dessa qualidade?
- Que tipo de dados você precisaria em um banco de dados (em alto nível)?
- Requer ter um dicionário de todas as palavras possíveis e seu significado, junto com muitos livros / corpora anotados e analisados estatisticamente adicionados a ele?
- Requer realmente gravar as pessoas conversando de maneira natural (como em programas de TV ou podcasts), transcrevendo-as para texto e adicionando isso de alguma forma ao seu "sistema"? (para obter frases realmente "humanas")
- Ou existem apenas padrões simples de frases baseadas em sintaxe que eles estão usando, sem um gigantesco banco de dados semântico de "significado"? Onde alguém acabou de escrever um monte de expressões regulares digita coisa ..
- Quais são os algoritmos usados para essas frases humanas naturalmente escritas?
Uma razão para perguntar é: parece que o campo NLG está muito longe de ser capaz de fazer o que a Siri, o Google Now e outros estão realizando. Então, que tipo de coisa eles estão fazendo? (Apenas para a parte de geração de texto da frase).