Estou procurando um software de instalação de texto em fala fácil para o Ubuntu que pareça natural. Eu instalei Festival
, Gespeaker
etc., mas nada parece muito natural. Tudo muito sintético e difícil de entender.
Alguma recomendação por aí?
Estou procurando um software de instalação de texto em fala fácil para o Ubuntu que pareça natural. Eu instalei Festival
, Gespeaker
etc., mas nada parece muito natural. Tudo muito sintético e difícil de entender.
Alguma recomendação por aí?
Respostas:
Um TTS muito minimalista, um som melhor do que falar ou mbrola (na minha opinião). Algumas informações aqui .
Não entendo por que o pico2wave é, comparado a falar ou mbrola, raramente discutido. É pequeno, mas parece muito bom (natural). Sem modificação, você ouvirá uma voz feminina com um som natural.
E ... comparado a Mbrola, ele reconhece Units e fala da maneira certa!
Por exemplo:
Após a instalação, eu o uso em um script:
#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav
Em seguida, execute-o com o texto desejado:
<scriptname>.sh "hello world"
ou leia o conteúdo de um arquivo inteiro:
<scriptname>.sh "$(cat <filename>)"
Isso é tudo para ter um TTS leve e estável no Ubuntu.
pico2wave
está no pacote libttspico-utils
em versões recentes do ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
pico2wave -w a.wav "$(input.txt)"
=). Concorde que essa interface da CLI é de design ruim: diferente da grande maioria das CLIs e possível atingir o comprimento máximo do argumento da CLI do SO .
echo {1..1000}
Acredito que encontrei o melhor software TTS gratuitamente usando uma extensão do Google Chrome chamada "SpeakIt". Isso só funciona no navegador Chrome para mim no Ubuntu. Por algum motivo, ele não funciona com o Chromium. O SpeakIt vem com duas vozes femininas, que parecem muito realistas em comparação com tudo o resto. Existem pelo menos mais quatro vozes masculinas e femininas listadas nas extensões do Chrome se você pesquisar na Chrome Web Store usando "TTS" como sua consulta.
Uso : Para uso em um site. você destaca o texto que deseja ler e clique com o botão direito do mouse e em "SpeakIt" ou clique no ícone SpeakIt encaixado na barra superior do Chrome.
Os usuários do Firefox também têm duas opções. Nos complementos do Firefox, faça uma busca pelo TTS e você encontrará "Click Speak" e também "Text to Voice". As vozes não são tão boas quanto as do Chrome SpeakIt, mas são definitivamente utilizáveis.
A extensão SpeakIt usa a tecnologia iSpeech e, por um preço de US $ 20 por ano, o site pode converter texto em arquivos de áudio MP3. Você pode inserir texto, URLs, feeds RSS, além de documentos como TXT, DOC e PDF e enviar para MP3. Você pode criar podcast, incorporar áudio etc. Aqui está um link e uma amostra do áudio deles (não sei quanto tempo o link durará).
Pico e fala são divertidos e fáceis de começar a trabalhar, mas não são tão bons assim. As vozes padrão do Festival também não são tão boas. No entanto, o Festival é uma estrutura de fala baseada em esquema, na qual vários pesquisadores criaram vozes de plug-in muito melhores. Você pode facilmente superar a qualidade pico2wave no Ubuntu, porque uma dessas vozes está disponível como um pacote pronto.
Para que o Festival pareça natural, eis o que fazer:
sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts)
festival> (SayText "Don't hate me, I'm just doing my job!")
Você pode fazer isso na linha de comando usando -b
(ou --batch
) e colocando cada comando entre aspas simples:
festival -b '(voice_cmu_us_slt_arctic_hts)' \
'(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
Você pode obter outras vozes muito boas no repositório da Nitech, mas instalá-las é minucioso e os caminhos padrão foram alterados para que as referências de nome de arquivo nos arquivos de esquema agrupados possam precisar ser editadas manualmente para funcionar no Ubuntu padrão.
Atualização da página do projeto (2019-02) : Este projeto está atualmente em manutenção e permanecerá assim no futuro próximo
Por causa da falta de uma alternativa melhor, escrevi um script bash que faz interface com um script perl de Michal Fapso para fornecer TTS via Google Translate. Na descrição do projeto:
A intenção é fornecer uma interface fácil de usar para a saída de texto em voz através do sistema de síntese de fala do Google. Uma opção de fallback usando o pico2wave fornece automaticamente a síntese do TTS, caso nenhuma conexão à Internet seja encontrada.
Tal como está, o wrapper suporta a leitura da entrada padrão, arquivos de texto sem formatação e a seleção X (texto destacado).
As principais características são:
A instalação e o uso estão documentados na página do projeto .
Ficaria feliz se você tentasse. Relatórios de bugs e qualquer outro feedback são bem-vindos!
Eu olhei alto e baixo para texto em fala para o Ubuntu que é de alta qualidade. Não há nenhum. Minhas cordas vocais estão paralisadas, então eu precisava do TTS para adicionar instruções de voz aos meus vídeos do Ubuntu . Você pode obter software comercial de texto para fala Linux de alta qualidade aqui . É realmente muito caro. Acabei comprando o Natural Reader para Windows (não funciona no Ubuntu no Wine) por US $ 40. Talvez mais tarde eu consiga o Linux.
Tenho conduzido pesquisas sobre o melhor som e facilmente sintonizado em vozes de voz. Abaixo está uma lista do que eu considerava os 5 principais produtos em ordem de qualidade de som. A maioria dos sites associados a esse produto possui uma demonstração interativa que permitirá que você faça sua própria determinação.
Acho as vozes da Nitech HTS no festival muito naturais e reconfortantes em relação a outras vozes que ouvi. Veja este link sobre como configurar o Nitech e outros sons com o festival. Eu não encontrei uma boa interface gráfica que eu possa usar para configurar essas vozes, mas defini-las via festival.scm ainda funciona. Essa postagem é muito antiga e você pode encontrar o diretório de instalação real usando o comando "localizar festival"
Combine as ferramentas SVOX (pico) com o LibreOffice:
As ferramentas SVOX (pico) são fáceis de instalar e trazem vozes de boa qualidade no Ubuntu. Instale-o:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
Você pode usar o LibreOffice em combinação com as ferramentas SVOX (pico) instalando a extensão "Read Text" e obtendo uma "GUI" para este excelente software TTS:
Configure as opções da Extensão de leitura de texto com Ferramentas - Complementos - Seleção de leitura .... Use / usr / bin / python como programa externo. Selecione uma opção de linha de comando que inclua o token (PICO_READ_TEXT_PY) ; talvez você queira experimentar alguns deles.
Agora você só precisa selecionar algum texto no LO Writer, Calc, Impress ou Draw e clicar no ícone adicionado como uma barra de ferramentas (uma cara feliz com um balão).
Aqui está o que eu fiz para ter um discurso natural puro para pdf e outros arquivos de texto (outras soluções não são naturais ou são apenas serviços pagos). Na verdade, esse é um trabalho usando o cromo ou o cromo, mas funciona de maneira fácil e rápida.
Também há maneiras de abrir outros arquivos como .doc e .txt no chrome e fazer o mesmo. Existem outras extensões para o Chrome que visualizam arquivos PDF, verifique se ele se encaixa melhor em você. Além disso, você pode enviar todos os tipos de textos no Google Drive e usar o SpeakIt! para ler para você. Outra extensão chamada 'Falar texto' funciona da mesma maneira e possui fala natural.
Ao procurar um mecanismo tts melhor para usar com o novo modo narrativo do firefox 49, encontrei o pico tts (svox) - meu mecanismo TTS favorito.
sudo apt install espeak libttspico0 libttspico-data libttspico-utils
Como alterar o sistema padrão do mecanismo de síntese de fala?
As pessoas do arch linux me levaram ao caminho certo:
Descomente o módulo que você gosta e torne-o padrão nas configurações do distribuidor de fala:
# sudo vim /etc/speech-dispatcher/speechd.conf
[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak" "sd_espeak" "espeak.conf"
AddModule "pico-generic" "sd_generic" "pico-generic.conf"
[...]
#DefaultModule espeak
DefaultModule pico-generic
Reinicie o daemon:
# sudo systemctl restart speech-dispatcher.service
MAS, ao iniciar o Firefox novamente, nada acontece. De acordo com o link acima (arch post posts 10 e 16) trabalha com o festival (não tentei), mas o locutor de voz do pico não lista as vozes disponíveis. Não vai correr.
Qualquer idéia lá fora seria muito apreciada ;-)
Meu programa favorito de conversão de texto em fala se chama Magic English, mas, como o Natural Reader mencionado por Joe Steiger, é um programa do Windows e não tenho certeza se ele será executado no Wine.
O AT&T Natural Voices está disponível on-line como uma demonstração, mas isso é mais uma solução alternativa do que uma solução ...
Pico, mbrola, cmu, festival, flite, todos SUGAM em 2017 (Eles foram incríveis nos anos 90). O discurso natural da AT&T (que é fantástico) não é compatível com linux e não é gratuito; portanto, usamos o Google
git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
gTTS ( Google Text-to-Speech ), uma biblioteca Python e ferramenta CLI para interagir com a API de conversão de texto em voz do Google Translate. Grava
mp3
dados falados em um arquivo, em um objeto semelhante a um arquivo (bytestring) para posterior manipulação de áudio oustdout
.
Contras : somente CLI. Precisa estar online, pois exige solicitar ao ponto de extremidade aberto público do Google.
sudo -H pip install gTTS # Install
Uso
gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
Alguns já foram mencionados
Imitar . Instalação:
sudo apt-get install gcc make pkg-config automake libtool libasound2-dev
git clone https://github.com/MycroftAI/mimic.git # take a while
cd mimic
./dependencies.sh --prefix="/usr/local" # take a while
./autogen.sh
./configure --prefix="/usr/local"
make # take a while
make check
eSpeak + Gespeaker (GUI) ( código fonte do Gespeaker )
Contras : Velho e feio
sudo apt install espeak gespeaker
Para isso, construo o Intelligent Speaker - extensão para o Google Chrome. Ele pode ler páginas mesmo sem seleção (quando a retenção de texto estiver correta).