Enquanto procurava uma resposta para esse problema, encontrei este fórum, então decidi postar essa questão minha no Stack Overflow.
Estou procurando um método para determinar a semelhança entre um segmento de áudio e uma voz humana, que é expressa numericamente.
Pesquisei bastante, mas o que encontrei até agora (detalhado abaixo) não se encaixa realmente no que preciso:
Um método é usar o software de reconhecimento de fala para obter palavras de um segmento de áudio. No entanto, esse método é incapaz de apresentar como o áudio "semelhante" é ao discurso humano; geralmente é possível saber se há ou não palavras no áudio, mas se não houver palavras definidas, não é possível saber se o áudio deve ter essas palavras.
Exemplos: CMU Sphinx , Dragonfly , SHoUTO método mais promissor é conhecido como VAD ( Voice Activity Detection ). No entanto, isso tende a ter os mesmos problemas: os algoritmos / programas que usam VAD tendem a retornar apenas se o limite de atividade foi atingido ou não, e nenhum valor de "similaridade" antes ou depois desse limite. Alternativamente, muitos apenas procuram volume, não semelhança com a fala humana.
Exemplos: Speex , Listener , FreeSWITCH
Alguma ideia?