Meu problema é que eu não conheço a energia do ruído de fundo, então não posso simplesmente limitar a energia. O processamento é feito em tempo real e tenho cerca de 500 ms para decidir. Idealmente, eu gostaria que consoantes silenciosas fossem consideradas não-silêncio.
6
Não tenho informações suficientes para dar uma resposta completa, mas seu problema é conhecido como detecção de atividade de voz . Não existe uma única maneira acertada de fazê-lo e, se você procurar, provavelmente encontrará várias abordagens diferentes. Talvez alguns outros possam aprofundar um pouco mais.
—
Jason R
@ Michael Litvin, existe uma classe de filtros não lineares (usados em 'detecção de energia' com o nome de 'Teager-Kaiser'. Acho que é um subconjunto do que é conhecido como 'voltera kernels'. Desculpe, não posso fornecer nenhum . mais informações, mas se você pesquisar em torno de essas palavras que você pode encontrar o que você está procurando Eu sei que o método Teager-Kaiser é usado para 'quando' sons de baleias começam VS apenas ruído de fundo.
—
Spacey