Como acompanhamento da minha pergunta anterior, eu queria saber se existem bibliotecas de detecção de fala existentes. Por detecção de fala, quero dizer passar em um buffer de áudio e recuperar um índice de onde a fala começa e para. Portanto, se eu tiver 10 segundos de amostragem de áudio a 44kHz, esperaria uma matriz de números como:
44000
88000
123000
190334
...
Isso indicaria, por exemplo, que a fala começa um segundo e depois termina no ponto de dois segundos, etc.
O que não estou procurando é o reconhecimento de fala, que grava o texto da palavra falada. Infelizmente, é isso que vejo muito quando pesquiso no Google 'detecção de fala'.
Seria ótimo se a biblioteca estivesse em C, C ++ ou até Objective-C, pois estou escrevendo um aplicativo para o iPhone.
Obrigado!