Estou estudando reconhecimento de fala, em particular o uso do MFCC para extração de recursos. Todos os exemplos que encontrei on-line tendem a representar graficamente uma série de MFCC extraídos de uma expressão específica da seguinte forma (gráfico gerado por mim a partir do software que estou escrevendo):
Como você pode ver no gráfico acima:
- o eixo x é usado para cada um dos coeficientes do MFC (de 1 a 12 neste exemplo)
- o eixo y é usado para os valores dos coeficientes (variando de aproximadamente -12 a 42 neste exemplo)
- você tem tantas linhas quanto quadros ou vetores de recursos que você extraiu (140 neste exemplo).
Agora, isso não faz muito sentido para mim, porque o que estamos vendo aqui é a superposição de todos os vetores de recursos de uma só vez, perdendo qualquer informação de tempo. Estou com dificuldades para entender como essa representação é útil.
Em minha opinião, eu representaria os vetores extraídos da seguinte forma (novamente, gráfico gerado por mim):
No gráfico acima:
- o eixo x é o número do quadro ou vetor (1 a 140)
- o eixo y são os valores do coeficiente (novamente, de -12 a 42 aprox)
- você tem uma linha para cada recurso (12).
Para mim, essa representação deve ser mais útil, pois você pode ver a evolução no tempo de cada recurso em particular e, em minha opinião, isso deve ter um impacto mais forte sobre como aplicar algoritmos de comparação em palavras faladas.
Talvez as duas representações sejam igualmente válidas e úteis para propósitos diferentes, como quando você precisa estudar um sinal no domínio do tempo ou no domínio da frequência, mas, no caso do reconhecimento de fala, eu esperaria a evolução no tempo de cada indivíduo. recurso para ser mais significativo do que a densidade de valores para cada recurso (e talvez eu esteja completamente errado: P).
Então, de fato duas perguntas:
- Por que a primeira representação é aquela que parece ser amplamente usada e não a segunda?
- Quando você deseja comparar dois conjuntos de MFCCs extraídos, por exemplo, usando Dynamic Time Warping - DTW, e relacionado a este tópico, você compara os vetores de recursos (ou seja, 140 vetores de 12 recursos) ou os quadros (12 vetores de 140 quadros) )? (em outras palavras, MxN ou NxM?)
Obrigado!