Como segmentar o áudio da chamada telefônica em silêncio / não silêncio?

Meu problema é que eu não conheço a energia do ruído de fundo, então não posso simplesmente limitar a energia. O processamento é feito em tempo real e tenho cerca de 500 ms para decidir. Idealmente, eu gostaria que consoantes silenciosas fossem consideradas não-silêncio.

audio speech-recognition

— Michael Litvin
fonte

Não tenho informações suficientes para dar uma resposta completa, mas seu problema é conhecido como detecção de atividade de voz . Não existe uma única maneira acertada de fazê-lo e, se você procurar, provavelmente encontrará várias abordagens diferentes. Talvez alguns outros possam aprofundar um pouco mais.

— Jason R

@ Michael Litvin, existe uma classe de filtros não lineares (usados em 'detecção de energia' com o nome de 'Teager-Kaiser'. Acho que é um subconjunto do que é conhecido como 'voltera kernels'. Desculpe, não posso fornecer nenhum . mais informações, mas se você pesquisar em torno de essas palavras que você pode encontrar o que você está procurando Eu sei que o método Teager-Kaiser é usado para 'quando' sons de baleias começam VS apenas ruído de fundo.

— Spacey

Há vários parâmetros que você pode observar:

Energia geral
Espectro de curto prazo: a fala tem um espectro e um ruído "rosa" bastante distintos (o que ocorre nas partes que não são da fala) tende a ser branco se for eletricamente dominado ou "vermelho" (ou seja, baixa frequência pesada) se for fundo acústico ruído ou ruído do microfone
Estatísticas de amplitude. A maioria dos sinais de ruído tem uma distribuição gaussiana, a fala está mais próxima de uma distribuição de Laplace

Eu acho que uma combinação desses três deve fornecer um esquema de detecção bastante robusto.

— Hilmar
fonte