Existe algum software decente de reconhecimento de fala para Linux?


50

A versão curta da pergunta: estou procurando um software de reconhecimento de fala que seja executado no Linux e tenha precisão e usabilidade decentes. Qualquer licença e preço é bom. Não deve ser restrito a comandos de voz, pois eu quero poder ditar texto.


Mais detalhes:

Tentei insatisfatoriamente o seguinte:

Todas as soluções Linux nativas mencionadas acima têm baixa precisão e usabilidade (ou algumas não permitem ditado de texto livre, mas apenas comandos de voz). Por baixa precisão, quero dizer uma precisão significativamente inferior à do software de reconhecimento de fala que mencionei abaixo para outras plataformas. Quanto ao Wine + Dragon NaturallySpeaking, na minha experiência, ele continua travando, e eu não pareço ser o único a ter esses problemas, infelizmente.

No Microsoft Windows, uso o Dragon NaturallySpeaking, no Apple Mac OS X, no Apple Dictation e no DragonDictate, no Android, no Google, no reconhecimento de fala do Google, e no iOS, no reconhecimento de fala interno da Apple.

A Baidu Research divulgou ontem o código para sua biblioteca de reconhecimento de fala usando a Classificação Temporal Connectionist implementada com o Torch. Os benchmarks do Gigaom são encorajadores, como mostrado na captura de tela abaixo, mas não conheço nenhum bom wrapper para torná-lo utilizável sem bastante codificação (e um grande conjunto de dados de treinamento):

insira a descrição da imagem aqui

Existem alguns projetos de código aberto muito alfa:

Também estou ciente dessa tentativa de rastrear estados das artes e resultados recentes (bibliografia) sobre reconhecimento de fala. bem como esta referência das APIs de reconhecimento de fala existentes .


Conheço o Aenea , que permite o reconhecimento de fala via Dragonfly em um computador para enviar eventos para outro, mas tem algum custo de latência:

insira a descrição da imagem aqui

Também estou ciente dessas duas conversas que exploram a opção Linux para reconhecimento de fala:


2
Alguns detalhes sobre o que você achou "insatisfatório" podem adiantar seu tópico de postagem interessante, mas geral. Por exemplo: o que especificamente você achou insatisfatório na combinação "Vinho + Dragão NaturallySpeaking"? (como ele falhou em replicar sua experiência com o Windows?) #
Theophrastus

11
@Theophrastus Basicamente, todas as soluções Linux nativas têm pouca precisão e usabilidade. Por baixa precisão, quero dizer uma precisão significativamente inferior à que o software de reconhecimento de fala que mencionei para outras plataformas possui. Quanto vinho + Dragon NaturallySpeaking, na minha experiência para de funcionar, e eu não parecem ser o único a ter esses problemas Infelizmente ( appdb.winehq.org/... )
Franck Dernoncourt


Existe um desses softwares que possui uma ferramenta de linha de comando? Seria muito interessante combinar o reconhecimento de fala com uma ferramenta de pressionar teclas e remover mouse como xdotool ( github.com/jordansissel/xdotool ) ou xsendkey ( github.com/kyoto/sendkeys ).
baptx 5/03

Respostas:


13

No momento, estou experimentando o uso do KDE connect em combinação com o reconhecimento de fala do Google no meu smartphone Android.

O KDE connect permite que você use seu dispositivo Android como um dispositivo de entrada para o seu computador Linux (também existem outros recursos). Você precisa instalar o aplicativo KDE connect da Google Play Store no seu smartphone / tablet e instalar o kdeconnect e o indicador-kdeconnect no seu computador Linux. Para sistemas Ubuntu, a instalação é a seguinte:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

A desvantagem desta instalação é que ela instala vários pacotes do KDE que você não precisa se não usar o ambiente de área de trabalho do KDE.

Depois de emparelhar seu dispositivo Android com o computador (eles precisam estar na mesma rede), você pode usar o teclado Android e clicar / pressionar no microfone para usar o reconhecimento de fala do Google. Enquanto você fala, o texto começará a aparecer onde quer que seu cursor esteja ativo no seu computador Linux.

Quanto aos resultados, eles são um pouco confusos para mim, pois atualmente estou escrevendo um documento técnico de astrofísica e o reconhecimento de fala do Google está lutando com o jargão que você normalmente não lê. Também se esqueça de descobrir pontuação ou capitalização adequada.

insira a descrição da imagem aqui

insira a descrição da imagem aqui



3

Como mais um Linuxer procurando por um programa útil de fala para texto (ditado), dei uma olhada no speechpad.pw:

  • reconhece muito bem minha língua materna
  • funciona rápido e muito confiável

Desvantagens:

  • é claro que é um software proprietário e fechado do Google
  • um serviço do Google ouvirá, processará e supostamente armazenará todas as palavras que você falar
  • áudio e texto serão processados ​​e obviamente armazenados pelo Google
  • speechpad.pw requer uma taxa de assinatura mensal / trimestral / anual
  • speechpad.pw é executado apenas como um complemento no navegador Google Chrome - nenhum outro navegador

Portanto, o speechpad.pw é muito proprietário e também de código fechado e também vinculado ao Google, que todos conhecemos como metadados sem sono, informações pessoais e coletor de conteúdo pessoal.

Essas desvantagens a tornam uma aplicação proibida para mim, embora o próprio reconhecimento de fala funcione muito bem - muito melhor do que qualquer outra coisa que eu já vi até agora.


Obrigado, sim, desvantagens significativas, especialmente porque ele só funciona no navegador Chrome.
Franck Dernoncourt 28/10

11
Você pode usar o Google Docs no Chrome e usar a opção "Ferramentas" »" Digitação de vozes ... ". Provavelmente exatamente o mesmo software de reconhecimento de fala, mas é gratuito. Em seguida, copie e cole os resultados do seu documento para onde você precisar do texto.
Alexis Wilke #

2

O aplicativo Chrome "VoiceNote II" ( http://voicenote.in/ ) está funcionando muito bem na minha máquina Xubuntu 16.04. Não é necessário treinamento de voz, e a configuração era simples. Uma pesquisa para encontrá-lo, um clique para instalar, um clique para criar um atalho e vinculá-lo à área de trabalho.


Obrigado, funciona apenas no Google Chrome embora
Franck Dernoncourt

0

Sugiro usar o dragon no seu telefone ou tablet e enviar o texto por e-mail para si mesmo. É uma chatice, mas funciona e é muito preciso. Se você insistir em usar o Linux para isso, obter uma segunda exibição tornará a vida muito mais fácil de copiar e colar.

Eu não tentei isso, mas você pode usar ou adaptar o programa Python Bluetooth Chat com dragon no seu tablet / telefone. Também pode haver aplicativos de teclado remoto para dispositivos móveis que suportem entrada de ditado.

Vou experimentar e tentar voltar para você com algo mais definitivo.


0

Estou usando o aplicativo KD Connect. está funcionando de forma bastante eficaz! Consigo manter os olhos no monitor enquanto falo com o telefone em cima da mesa. A única desvantagem é que isso está sendo feito através do teclado do Google. não é gratuito, nativo nem de código aberto. este comentário foi publicado sem fazer nenhuma correção de tipo


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.