Alguém conhece um aplicativo que pode converter áudio em texto? Estou executando o ubuntu 12.04 LTS.
Alguém conhece um aplicativo que pode converter áudio em texto? Estou executando o ubuntu 12.04 LTS.
Respostas:
O software que você pode usar é o CMUSphinx . Diferentemente do sugerido em outra resposta, Julius não é adequado porque requer modelos. Modelos para reconhecimento de fala com vocabulário grande não estão disponíveis para o Julius.
Você pode usar o pocketsphinx para converter arquivos de áudio. Esses dois comandos devem fazer o trabalho. Primeiro você converte o arquivo no formato necessário e depois o reconhece:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
A corrida pocketsphinx
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
O resultado será armazenado em result.txt.
speech recognition
e voice command
ferramentas aqui: youtube.com/…
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
trabalhou. Talvez eles não sejam pacotes ideais, mas foram as melhores correspondências que eu encontrei nos repositórios.
Eu sei que isso é antigo, mas para expandir a resposta de Nikolay e, com sorte, salvar alguém em algum momento no futuro, para obter uma versão atualizada do pocketsphinx funcionando, você precisa compilá-lo no repositório github ou sourceforge (não tenho certeza que é mantido mais atualizado). Observe que -j8 significa executar 8 tarefas separadas em paralelo, se possível; se você tiver mais núcleos de CPU, poderá aumentar o número.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Em seguida, em: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ faça o
download das versões mais recentes cmusphinx-en-us-....tar.gz
een-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
Finalmente, você pode prosseguir com as etapas da resposta de Nikolay:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Esfinge funciona bem. Eu não confiaria nisso para criar uma versão legível do texto, mas é bom o suficiente para que você possa pesquisá-lo se estiver procurando por uma citação específica. Isso funciona especialmente bem se você usar um algoritmo de pesquisa como o Xapian ( http://www.lesbonscomptes.com/recoll/ ) que aceita caracteres curinga e não requer expressões exatas de pesquisa.
Espero que isto ajude.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Se você deseja converter fala em texto, tente abrir o Ubuntu Software Center e procure por Julius
Descrição
"Julius" é um software decodificador de reconhecimento contínuo de voz (LVCSR) de alto desempenho e duas passagens para pesquisadores e desenvolvedores relacionados à fala.
Ou outra opção que não está no Software Center é o Simon
... é um programa de reconhecimento de fala de código aberto e substitui o mouse e o teclado.
Links de referência
http://julius.sourceforge.jp/en_index.php
Você pode usar o painel de transcrição speechpad.pw