reconhecimento de fala simples no linux


15

Alguém tem um tutorial simples para executar o reconhecimento de fala no linux? Vejo que o pocketsphinx está disponível como um download binário no centro de software, mas a execução no terminal falha ao informar que precisa de parâmetros, mas não sei o que colocar lá. Tentei instalar todos os modelos de voz listados, mas não sei onde eles são salvos ou como fazê-los funcionar. Também não tinha certeza do que fazer para fazer o Sphinx3 funcionar. As páginas de manual do Sphinx3 parecem quebradas e a do bolsão não tem um exemplo de uso que faça sentido para mim.

Estou procurando por algo que obtenha 60% de reconhecimento correto da entrada do microfone, com vocabulário e palavras limitados, e possa gravá-lo em um arquivo de texto - esse material existia no final dos anos 80. Então, eu sei que existe e deve funcionar de alguma forma.

Obrigado.

(A conexão com a Internet PS é proibida)


Eu tive problemas para obter simon-listens.org em execução no Ubuntu última vez que tentei, mas isso foi há bastante tempo, pode valer a pena investigar
david.libremone

11
Você pode estipular se a exigência de uma conexão ativa com a Internet está correta. O serviço de voz do google aceita um arquivo de áudio e retorna texto, mas não é compatível com offline.
RobotHumans

Internet ativa não é possível.
User2068060

11
A melhor maneira de adicionar informações adicionais à sua pergunta é editando-a, com o botão editar . É melhor visível dessa maneira, e os comentários são principalmente para fins secundários e temporários. Os comentários são removidos sob várias circunstâncias. Qualquer coisa importante para sua pergunta deve estar na própria pergunta.
guntbert

Respostas:


4

Tente Simon Escuta

O Simon é um programa de reconhecimento de fala de código aberto e substitui o mouse e o teclado. Ele foi projetado para ser muito flexível e permite a personalização de qualquer aplicativo em que o reconhecimento de fala seja necessário.

Para baixar e mais informações, visite simon no kde.org



0

A taxa de precisão depende de vários fatores, como sotaque, ruídos de fundo e qualidade das gravações. Os modelos pré-treinados são um pouco limitados e usaram o Transcribear, em vez disso, uma ferramenta de conversão de texto em navegador da Web no Linux para meus projetos de transcrição.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.