Como segmentar o áudio da chamada telefônica em silêncio / não silêncio?


9

Meu problema é que eu não conheço a energia do ruído de fundo, então não posso simplesmente limitar a energia. O processamento é feito em tempo real e tenho cerca de 500 ms para decidir. Idealmente, eu gostaria que consoantes silenciosas fossem consideradas não-silêncio.


6
Não tenho informações suficientes para dar uma resposta completa, mas seu problema é conhecido como detecção de atividade de voz . Não existe uma única maneira acertada de fazê-lo e, se você procurar, provavelmente encontrará várias abordagens diferentes. Talvez alguns outros possam aprofundar um pouco mais.
Jason R

@ Michael Litvin, existe uma classe de filtros não lineares (usados ​​em 'detecção de energia' com o nome de 'Teager-Kaiser'. Acho que é um subconjunto do que é conhecido como 'voltera kernels'. Desculpe, não posso fornecer nenhum . mais informações, mas se você pesquisar em torno de essas palavras que você pode encontrar o que você está procurando Eu sei que o método Teager-Kaiser é usado para 'quando' sons de baleias começam VS apenas ruído de fundo.
Spacey

Respostas:


4

Há vários parâmetros que você pode observar:

  1. Energia geral
  2. Espectro de curto prazo: a fala tem um espectro e um ruído "rosa" bastante distintos (o que ocorre nas partes que não são da fala) tende a ser branco se for eletricamente dominado ou "vermelho" (ou seja, baixa frequência pesada) se for fundo acústico ruído ou ruído do microfone
  3. Estatísticas de amplitude. A maioria dos sinais de ruído tem uma distribuição gaussiana, a fala está mais próxima de uma distribuição de Laplace

Eu acho que uma combinação desses três deve fornecer um esquema de detecção bastante robusto.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.