Estou tentando extrair recursos de um arquivo de som e classificá-lo como pertencendo a uma categoria específica (por exemplo: latido de cachorro, motor de veículo etc.). Gostaria de esclarecer as seguintes coisas:
1) Isso é factível? Existem programas que reconhecem a fala e diferenciam diferentes tipos de latidos de cães. Mas é possível ter um programa que possa receber uma amostra de som e apenas dizer que tipo de som é esse? (Suponha que haja um banco de dados contendo muitas amostras de som para referência). As amostras de som de entrada podem ser um pouco barulhentas (entrada de microfone).
2) Presumo que o primeiro passo seja a extração de recursos de áudio. Este artigo sugere extrair MFCCs e alimentá-los com um algoritmo de aprendizado de máquina. MFCC é suficiente? Existem outros recursos geralmente usados para classificação de som?
Obrigado pelo seu tempo.