Existe algum software decente de reconhecimento de fala para Linux?

50

A versão curta da pergunta: estou procurando um software de reconhecimento de fala que seja executado no Linux e tenha precisão e usabilidade decentes. Qualquer licença e preço é bom. Não deve ser restrito a comandos de voz, pois eu quero poder ditar texto.

Mais detalhes:

Tentei insatisfatoriamente o seguinte:

CMU Sphinx
CVoiceControl
Orelhas
Julius
Kaldi (por exemplo, servidor Kaldi GStreamer )
IBM ViaVoice (usado para executar no Linux, mas foi descontinuado anos atrás)
NICO ANN Toolkit
OpenMindSpeech
RWTH ASR
gritar
silvius (criado no kit de ferramentas de reconhecimento de fala Kaldi)
Simon Escuta
ViaVoice / Xvoice
Vinho + Dragão NaturalmenteFalante + NatLink + libélula + libelinha
https://github.com/DragonComputer/Dragonfire : aceita apenas comandos de voz

Todas as soluções Linux nativas mencionadas acima têm baixa precisão e usabilidade (ou algumas não permitem ditado de texto livre, mas apenas comandos de voz). Por baixa precisão, quero dizer uma precisão significativamente inferior à do software de reconhecimento de fala que mencionei abaixo para outras plataformas. Quanto ao Wine + Dragon NaturallySpeaking, na minha experiência, ele continua travando, e eu não pareço ser o único a ter esses problemas, infelizmente.

No Microsoft Windows, uso o Dragon NaturallySpeaking, no Apple Mac OS X, no Apple Dictation e no DragonDictate, no Android, no Google, no reconhecimento de fala do Google, e no iOS, no reconhecimento de fala interno da Apple.

A Baidu Research divulgou ontem o código para sua biblioteca de reconhecimento de fala usando a Classificação Temporal Connectionist implementada com o Torch. Os benchmarks do Gigaom são encorajadores, como mostrado na captura de tela abaixo, mas não conheço nenhum bom wrapper para torná-lo utilizável sem bastante codificação (e um grande conjunto de dados de treinamento):

Existem alguns projetos de código aberto muito alfa:

https://github.com/mozilla/DeepSpeech (parte do projeto Vaani da Mozilla: http://vaani.io ( mirror ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, um sistema para controlar um sistema Linux usando o Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (a ser lançado pelo Google, mencionado na Interspeech 2018)

Também estou ciente dessa tentativa de rastrear estados das artes e resultados recentes (bibliografia) sobre reconhecimento de fala. bem como esta referência das APIs de reconhecimento de fala existentes .

Conheço o Aenea , que permite o reconhecimento de fala via Dragonfly em um computador para enviar eventos para outro, mas tem algum custo de latência:

Também estou ciente dessas duas conversas que exploram a opção Linux para reconhecimento de fala:

2016 - A décima primeira ESPERANÇA: Codificação por voz com reconhecimento de fala de código aberto (David Williams-King)
2014 - Pycon: Usando Python para codificar por voz (Tavis Rudd)

software-rec speech-recognition

— Franck Dernoncourt
fonte

2

Alguns detalhes sobre o que você achou "insatisfatório" podem adiantar seu tópico de postagem interessante, mas geral. Por exemplo: o que especificamente você achou insatisfatório na combinação "Vinho + Dragão NaturallySpeaking"? (como ele falhou em replicar sua experiência com o Windows?) #

— Theophrastus

11

@Theophrastus Basicamente, todas as soluções Linux nativas têm pouca precisão e usabilidade. Por baixa precisão, quero dizer uma precisão significativamente inferior à que o software de reconhecimento de fala que mencionei para outras plataformas possui. Quanto vinho + Dragon NaturallySpeaking, na minha experiência para de funcionar, e eu não parecem ser o único a ter esses problemas Infelizmente ( appdb.winehq.org/... )

— Franck Dernoncourt

11

Eu não tentei isso, mas no caso de alguém acha útil: github.com/Uberi/speech_recognition e jasperproject.github.io e github.com/benoitfragit/google2ubuntu

— Hatshepsut

Existe um desses softwares que possui uma ferramenta de linha de comando? Seria muito interessante combinar o reconhecimento de fala com uma ferramenta de pressionar teclas e remover mouse como xdotool ( github.com/jordansissel/xdotool ) ou xsendkey ( github.com/kyoto/sendkeys ).

— baptx 5/03

13

No momento, estou experimentando o uso do KDE connect em combinação com o reconhecimento de fala do Google no meu smartphone Android.

O KDE connect permite que você use seu dispositivo Android como um dispositivo de entrada para o seu computador Linux (também existem outros recursos). Você precisa instalar o aplicativo KDE connect da Google Play Store no seu smartphone / tablet e instalar o kdeconnect e o indicador-kdeconnect no seu computador Linux. Para sistemas Ubuntu, a instalação é a seguinte:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

A desvantagem desta instalação é que ela instala vários pacotes do KDE que você não precisa se não usar o ambiente de área de trabalho do KDE.

Depois de emparelhar seu dispositivo Android com o computador (eles precisam estar na mesma rede), você pode usar o teclado Android e clicar / pressionar no microfone para usar o reconhecimento de fala do Google. Enquanto você fala, o texto começará a aparecer onde quer que seu cursor esteja ativo no seu computador Linux.

Quanto aos resultados, eles são um pouco confusos para mim, pois atualmente estou escrevendo um documento técnico de astrofísica e o reconhecimento de fala do Google está lutando com o jargão que você normalmente não lê. Também se esqueça de descobrir pontuação ou capitalização adequada.

— shockburner
fonte

4

Por enquanto, apenas o notebook Voice funciona no Linux.

— Alexei
fonte

2

Obrigado, mas só funciona no navegador Chrome.

— Franck Dernoncourt

3

Como mais um Linuxer procurando por um programa útil de fala para texto (ditado), dei uma olhada no speechpad.pw:

reconhece muito bem minha língua materna
funciona rápido e muito confiável

Desvantagens:

é claro que é um software proprietário e fechado do Google
um serviço do Google ouvirá, processará e supostamente armazenará todas as palavras que você falar
áudio e texto serão processados e obviamente armazenados pelo Google
speechpad.pw requer uma taxa de assinatura mensal / trimestral / anual
speechpad.pw é executado apenas como um complemento no navegador Google Chrome - nenhum outro navegador

Portanto, o speechpad.pw é muito proprietário e também de código fechado e também vinculado ao Google, que todos conhecemos como metadados sem sono, informações pessoais e coletor de conteúdo pessoal.

Essas desvantagens a tornam uma aplicação proibida para mim, embora o próprio reconhecimento de fala funcione muito bem - muito melhor do que qualquer outra coisa que eu já vi até agora.

— também
fonte

Obrigado, sim, desvantagens significativas, especialmente porque ele só funciona no navegador Chrome.

— Franck Dernoncourt 28/10

11

Você pode usar o Google Docs no Chrome e usar a opção "Ferramentas" »" Digitação de vozes ... ". Provavelmente exatamente o mesmo software de reconhecimento de fala, mas é gratuito. Em seguida, copie e cole os resultados do seu documento para onde você precisar do texto.

— Alexis Wilke #

2

O aplicativo Chrome "VoiceNote II" ( http://voicenote.in/ ) está funcionando muito bem na minha máquina Xubuntu 16.04. Não é necessário treinamento de voz, e a configuração era simples. Uma pesquisa para encontrá-lo, um clique para instalar, um clique para criar um atalho e vinculá-lo à área de trabalho.

— Indy Tech Fix
fonte

Obrigado, funciona apenas no Google Chrome embora

— Franck Dernoncourt

0

Sugiro usar o dragon no seu telefone ou tablet e enviar o texto por e-mail para si mesmo. É uma chatice, mas funciona e é muito preciso. Se você insistir em usar o Linux para isso, obter uma segunda exibição tornará a vida muito mais fácil de copiar e colar.

Eu não tentei isso, mas você pode usar ou adaptar o programa Python Bluetooth Chat com dragon no seu tablet / telefone. Também pode haver aplicativos de teclado remoto para dispositivos móveis que suportem entrada de ditado.

Vou experimentar e tentar voltar para você com algo mais definitivo.

— user273470
fonte

0

Estou usando o aplicativo KD Connect. está funcionando de forma bastante eficaz! Consigo manter os olhos no monitor enquanto falo com o telefone em cima da mesa. A única desvantagem é que isso está sendo feito através do teclado do Google. não é gratuito, nativo nem de código aberto. este comentário foi publicado sem fazer nenhuma correção de tipo

— Josh Levine
fonte

-2

Você pode usar fala para texto no aplicativo Linux Este aplicativo usa o Google Speech Api e o módulo de integração binária para Linux de 32 ou 64 bits. Você pode ver uma breve apresentação do uso das ferramentas speechpad.pw no Ubuntu

— Pavel Popov
fonte

11

O OP está procurando um mecanismo de fala para texto. Isso é apenas um invólucro da interface do usuário da Web (e é ruim nisso) em torno de um mecanismo STT.

— Cerin