Qual é a taxa de fala padrão para o programa de síntese de fala?

4

Eu tenho procurado por toda a internet, mas não consigo descobrir a taxa de fala padrão para o programa de síntese de fala embutido no Mac OS.

say "What to say" -r <rate>

Como mostrado acima, há uma maneira de especificar a taxa de fala (wpm), mas não há onde isso especifica a taxa padrão?

Alguém tem uma ideia do que é?

mac terminal text-to-speech

— keto23
fonte

3

As taxas de fala padrão podem realmente ser alteradas nas Preferências do Sistema:

O controle deslizante pode ser definido para uma posição diferente para diferentes vozes. Quando tentei arrastar os controles deslizantes para Alex e Mikko para o meio, os WPMs mostrados na saída abaixo eram 175 e 180.

$ defaults read com.apple.speech.voice.prefs VoiceRateDataArray
(
        (
        1835364215,
        201,
        175
    ),
        (
        1919902066,
        546,
        180
    )
)

As saídas de say -r 175 e say sem um -r As opções eram idênticas para Agnes, Alex e Bruce, e quase idênticas para algumas outras vozes. Mas, por exemplo, a taxa de fala padrão da voz "Bahh" é muito mais lenta.

$ say -v ? | sed 's/  .*//' | while read l; do say -v "$l" -r 175 {1..9} -o "$l 1.aif"; say -v "$l" {1..9} -o "$l 2.aif"; done
$ stat -f '%z %N' *
120136 Agnes 1.aif
120136 Agnes 2.aif
131692 Albert 1.aif
180260 Albert 2.aif
122968 Alex 1.aif
122968 Alex 2.aif
231596 Bad News 1.aif
231820 Bad News 2.aif
131692 Bahh 1.aif
180264 Bahh 2.aif
318508 Bells 1.aif
318488 Bells 2.aif
131692 Boing 1.aif
164368 Boing 2.aif
116514 Bruce 1.aif
116514 Bruce 2.aif
131692 Bubbles 1.aif
138860 Bubbles 2.aif
196652 Cellos 1.aif
197088 Cellos 2.aif
131692 Deranged 1.aif
150720 Deranged 2.aif
131692 Fred 1.aif
138860 Fred 2.aif
331052 Good News 1.aif
331492 Good News 2.aif
301932 Hysterical 1.aif
301916 Hysterical 2.aif
131692 Junior 1.aif
144676 Junior 2.aif
131692 Kathy 1.aif
144676 Kathy 2.aif
118196 Kyoko 1.aif
114440 Kyoko 2.aif
420970 Mikko 1.aif
408432 Mikko 2.aif
228012 Pipe Organ 1.aif
228448 Pipe Organ 2.aif
131692 Princess 1.aif
144676 Princess 2.aif
131692 Ralph 1.aif
144676 Ralph 2.aif
128810 Sin-Ji 1.aif
124834 Sin-Ji 2.aif
131692 Trinoids 1.aif
138860 Trinoids 2.aif
119410 Vicki 1.aif
116118 Vicki 2.aif
122742 Victoria 1.aif
119444 Victoria 2.aif
131692 Whisper 1.aif
150724 Whisper 2.aif
131692 Zarvox 1.aif
138860 Zarvox 2.aif

— Lri
fonte

0

Não é uma maneira "boa" de fazer isso, mas você pode fazer algumas amostras, talvez começando em 120 ppm, e compará-las com uma gravação de controle da velocidade "padrão" (obviamente, com todas as gravações usando a mesma voz e texto). Para maior precisão, você pode carregar os arquivos em qualquer aplicativo básico de edição de áudio e visualizar as formas de onda para realmente comparar a taxa de uma gravação e outra. Eu não posso imaginar que levaria muito tempo para reduzi-lo. Eu faria eu mesmo se tivesse tempo agora.

Alternativamente, você pode obter algumas amostras de texto de comprimentos conhecidos (digamos 100 palavras, 200 palavras, etc.), gravar a voz falando todas elas nas configurações padrão e usar as durações para calcular a média de wmp de todas as gravações. Com amostras suficientes, tenho certeza que você vai chegar perto.

EDIT: Após o primeiro procedimento que descrevi acima, eu encontrei a taxa de fala padrão de Alex (a voz padrão) para ser exatamente 175 ppm .

No padrão e velocidades de 175 ppm, as duas formas de onda combinam perfeitamente.

— Tortilla
fonte

0

720 parece max para a voz que estou usando

— user145705
fonte