Estou tentando detectar e classificar sons que não são de fala. Atualmente, estou usando uma série de espectros de potência sobrepostos em movimento de sons de treinamento como os recursos que estou procurando.
Quando analiso, estou apenas computando a mesma quantidade de espectros sobrepostos para que o número de recursos seja o mesmo. No momento, o desempenho não é muito bom, só pode detectar o silêncio versus o não silêncio.
Que técnicas existem para esse tipo de detecção de sinal? Uma das minhas preocupações é que, para sons de diferentes comprimentos no domínio do tempo, resultem em comprimentos diferentes de vetores de recursos que, portanto, não posso usar o mesmo classificador, estou preso a isso.