Respostas:
Em ordem decrescente de popularidade :
O say converte texto em fala audível usando o mecanismo de fala GNUstep.
sudo apt-get install gnustep-gui-runtime
say "hello"
festival Sistema geral de síntese de fala multilingue.
sudo apt-get install festival
echo "hello" | festival --tts
O spd-say envia uma solicitação de saída de texto para fala ao despachante de fala
sudo apt-get install speech-dispatcher
spd-say "hello"
O espeak é um sintetizador de fala de software multilíngue.
sudo apt-get install espeak
espeak "hello"
spd-say
parece estar pré-instalado no 14.04 e em versões
sudo pip install gTTS
, (Google Text to Speech / github.com/pndurette/gTTS ), gtts-cli "hello" -o hello.mp3
você também pode canalizá-lo mpg123 -
. gtts-cli "why, hello there" | mpg123 -
.
spd-say
não parece ser capaz de jogar tts simultaneamente, apenas um de cada vez
espeak
/ spd-say
é o melhor para memes (os outros nem conseguem pronunciar a palavra "meme" corretamente). O melhor que posso dizer spd-say
usa espeak
como back-end (as vozes soam iguais).
espeak
é uma ótima ferramenta.
Eu apenas gosto de brincar com ele em uma linha de comando. Você pode achar que está em conflito com o Pulseaudio, por isso estou usando uma versão longa que nega ter que configurá-la corretamente.
sudo apt-get install espeak
espeak --stdout "this is a test" | paplay
espeak --help
mostrará as opções para calibrar a velocidade de leitura, tom, voz, etc.
Ao fazer suas anotações, salve-as como um arquivo de texto e depois:
echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"
Você pode então brincar com ffmeg et al para compactar isso do PCM para algo mais gerenciável como MP3 ou OGG. Mas essa é uma história diferente.
De man spd-say
:
NOME spd-say - envia uma solicitação de saída de texto para fala ao despachante de fala SINOPSE spd-say [opções] "algum texto" DESCRIÇÃO O spd-say envia uma solicitação de saída de texto para fala ao processo do despachante de voz, que lida com isso e, idealmente, gera o resultado ao sistema de áudio. OPÇÕES -r, --rate Defina a taxa do discurso (entre -100 e +100, padrão: 0) -p, --pitch Defina o tom do discurso (entre -100 e +100, padrão: 0) -i, --volume Defina o volume (intensidade) da fala (entre -100 e +100, padrão: 0)
Portanto, você pode obter a conversão de texto em fala seguindo o comando:
spd-say "<type text>"
Ex:
spd-say "Welcome to Ubuntu Linux"
Você também pode definir a taxa de fala, tom, volume etc. consulte a página de manual.
spd-say -t female2 "text"
torna suportável
Mbrola não funciona desde as 11h10.
As ferramentas SVOX (pico) são fáceis de instalar, fáceis de usar e traz vozes de boa qualidade no Ubuntu. Instale-o:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
Ainda mais fácil, você pode usar o LibreOffice em combinação com as ferramentas SVOX (pico) instalando a extensão "Read Text" e obtendo uma "GUI" para este excelente software TTS:
Configure as opções da Extensão de leitura de texto com Ferramentas - Complementos - Seleção de leitura .... Use / usr / bin / python como programa externo. Selecione uma opção de linha de comando que inclua o token (PICO_READ_TEXT_PY).
Google Speach em Python:
pip install google_speech
google_speech "Test the hello world"
Svox Do Android:
apt-get install svox-pico
pico2wave --wave=test.wav "Test the hello world"
play test.wav
Nanotts Svox:
git clone https://github.com/gmn/nanotts.git
cd nanotts
make
./nanotts -v en-US "Test the hello world"
Links - Wiki:
google_speech
no Ubuntu 18.04 Eu tive que instalar python3-pip
e libsox-fmt-mp3
e usar pip3 install google_speech
.
O seguinte não é uma solução de software livre, mas você pode achar que vale a pena. (é uma solução de vinho ),
Pessoalmente, gosto muito de TTS, uso-o com bastante frequência ... por exemplo. ouvindo um discurso divagador que eu nunca me incomodaria em ficar com outra coisa (porque eu preciso tomar outra xícara de café ... :)
Algumas coisas que descobri ao longo do caminho ... ou devo dizer, coisas que não descobri ao longo do caminho ... Para ser franco: Todo software de voz FOSS TTS que experimentei está abaixo do par e, portanto, inadequado para qualquer audição semi-prolongada ...
Atualmente, uso o NaturalVoices da ATnT. Ele está disponível apenas para Windows (talvez o Mac), mas é executado wine
no Ubuntu .. (possui um glytch menor, onde às vezes preciso clicar no painel quando me afasto do leitor ... É um menor quando comparado com a vantagem obtida pela qualidade da fala do NatualVoices.
Algumas outras coisas que eu achei virtualmente essenciais para uma experiência auditiva meio sensível são: ...
Esses programas TTS não são inteligentes (bem, talvez tão inteligentes quanto um babuíno jovem) .. então eles precisam de toda a ajuda que puderem obter. e há um (e apenas um programa Reader que encontrei que ajuda muito nisso .. O aplicativo é chamado ReadPlease (2003 Pro)
... Permitia que você modificasse especialmente palavras e grupos de palavras para serem pronunciados como você deseja ... não é de forma alguma perfeita, mas, para mim, fez a diferença entre todo o processo ser utilizável e não utilizável ...
O discurso no Natural Voices é "bom", mas é um pouco chato. Existem outros bons produtos também, mas todos são para Windows, infelizmente) ..
Às vezes surpreende muito bem ... mas OMG, inicialmente é uma dor! .. então # 2 é * paciência ... e muita atualização da sua lista de "palavras especiais" ... Por paciência, quero dizer que você (I) realmente se acostumou aos padrões de fala do meu babuíno:) ... e por a propósito, atualmente tenho cerca de 3000 palavras que agora soam "Humanas" o suficiente para não me encolher mais quando as ouço.
3 .. "Siga a bola quicando" ... Novamente, porque a voz nunca é tão boa quanto um orador real, as coisas às vezes precisam ser esclarecidas. O programa Reader que eu uso possui um recurso para o qual eu atendo sua interface desajeitada .... Possui uma opção de palavra "selecione o que está sendo lido no momento". Muitos leitores têm isso, mas o ReadPlease mantém a linha atual ativa. centro da tela .. É inestimável poder ver à frente e atrás para reler rapidamente o que você perdeu (portanto, é bom centralizar automaticamente a linha atual) ...
Bem, essa é a minha experiência. Vou fazer um café agora, e enquanto estiver fazendo isso, estarei ouvindo isso, para ver como "lê" ... O TTS é surpreendentemente bom para pegar erros de digitação (eu faço muitos erros de digitação) ...
Se algo tão bom quanto o ATnT NaturalVoices aparecer no repositório Ubuntu, eu vou pular nele.
Aqui está um link para alguns exemplos de Natural Voices : Eu uso "MIke"
SVOX pico2wave
é isso que eu uso. E parece natural, é fácil de entender, reconhece unidades (m, ° C, kg, ...)
Aqui está o meu primeiro post no pico2wave
Tudo que você tem a fazer é:
Vá para o Ubuntu Software Center e procure por "pico". Você encontrará 4 ou 5 entradas com "Small Footprint Ling ...". Instale-os.
Um possível uso do pico2wave é descrito em minha primeira postagem (siga o link acima).
Tchau
Pois festival
(a voz parece mais natural para mim):
sudo apt-get install festival
echo "hello" | festival --tts
Configuração de inclinação e velocidade:
criar ~/.festivalrc
:
(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100")
(Parameter.set 'Audio_Method 'Audio_Command)
Consulte também http://www.solomonson.com/content/ubuntu-linux-text-speech
Atualização: tentei em outro computador ubuntu. Teve que instalar o pacote do mecanismo de fala em inglês para funcionar corretamente com o festival:
sudo apt-get install festvox-kallpc16k
Também play
é um comando cli que vem com o sox
pacote:
sudo apt-get install sox
Mesmo que você já tenha aceitado uma resposta, eu gostaria de mencionar festival
, do qual também gosto muito. Este post nos fóruns do Ubuntu tem muitas informações sobre como configurar vozes muito agradáveis.
Meet espeak-ng
- Um sintetizador de fala de software multilíngue:
espeak-ng "text to read"
espeak-ng -f "~/file to read"
Ele usa uma voz em inglês padrão, mas existem inúmeras outras vozes para outros idiomas e até dialetos disponíveis e podem ser listadas com espeak-ng --voices
(para todos) ou, por exemplo, espeak-ng --voices=en
(para inglês). Eles podem ser configurados -v
juntamente com a abreviação do idioma ou o nome do arquivo, por exemplo, para escocês ou suaíli:
espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili
Existem muitas outras opções disponíveis, por exemplo, -s
para a velocidade e -w
para gravar a saída em um arquivo wave, consulte a página de manual abaixo.
espeak-ng
("Ng" para "próxima geração") é um fork ativo do espeak
software sintetizador de fala original , consulte o capítulo História na Wikipedia . Ambos estão disponíveis nas fontes oficiais através do pacote espeak
ou espeak-ng
respectivamente.
O Balabolka no Wine funciona bem (para mim) com as vozes SAPI4 (as vozes SAPI5 não são detectadas no meu sistema Linux). Pode abrir arquivos e começar a ler.
Aqui está o link para a entrada do Wine no AppDB para Balabolka: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859
A ferramenta gTTS é ótima para gerar arquivos de áudio a partir de texto. Ele usa a API de conversão de texto em fala do Google Translate e gera arquivos mp3.
Como ele é usado pip
para instalação, eu recomendo fortemente que você instale o Miniconda e, em seguida, use-o conda
para criar um ambiente onde você pode instalar o gTTS. Você pode baixar o Miniconda aqui:
https://docs.conda.io/en/latest/miniconda.html
O repositório GitHub para gTTS é:
https://github.com/pndurette/gTTS
E você pode encontrar a documentação do gTTS aqui: