Normalização da Média Cepstral

Alguém pode explicar sobre a Normalização Média Cepstral, como a propriedade de equivalência da convolução afeta isso? É necessário fazer o CMN no reconhecimento de alto-falante baseado em MFCC? Por que a propriedade da convolução é a necessidade fundamental do MFCC?

Eu sou muito novo neste processamento de sinal. Por favor ajude

mfcc

— mun
fonte

Pode, sem usar o banco de filtros, converter a frequência diretamente em escala de mel irá funcionar no processo MFCC?

— purple

Apenas para esclarecer as coisas - essa propriedade não é fundamental, mas importante . É a diferença fundamental quando se trata de usar DCT em vez de DFT para o cálculo do espectro.

Por que fazemos a Normalização da Média Cepstral

No reconhecimento do alto-falante, queremos remover todos os efeitos do canal (resposta ao impulso do trato vocal, caminho do áudio, sala etc.). Desde que o sinal de entrada seja e a resposta ao impulso do canal seja dada por , o sinal gravado é uma convolução linear de ambos: $x[n]$ $h[n]$

y [n] = x [n] ⋆ h [n]

$y[n] = x[n] \star h[n]$

Ao fazer a transformada de Fourier, obtemos:

Y [f] = X [f] \cdot H [f]

$Y[f] = X[f]\cdot H[f]$

devido à propriedade de equivalência de convolução-multiplicação do FT - é por isso que é uma propriedade tão importante do FFT nesta etapa .

O próximo passo no cálculo do cepstrum é tomar o logaritmo do espectro:

Y [q] = registro Y [f] = registro (X [f] \cdot H [f]) = X [q] + H [q]

$Y[q] = \log Y[f] = \log \left( X[f] \cdot H[f]\right) = X[q] + H[q]$

porque: . Obviamente, é a quefrency . Como se pode notar, tomando o cepstrum da convolução no domínio do tempo, terminamos com a adição no domínio cepstral (quefrency). $\log(ab) = \log a +\log b$ $q$

O que é a Normalização Média Cepstral?

Agora sabemos que no domínio cepstral qualquer distorção convolucional é representada por adição. Vamos supor que todos eles estejam estacionários (o que é uma forte suposição, pois o trato vocal e a resposta do canal não estão mudando) e a parte estacionária da fala é insignificante. Podemos observar que, para todo i-ésimo quadro, verdadeiro é:

Y_{Eu} [q] = H [q] + X_{Eu} [q]

$Y_i[q] = H[q] + X_i[q]$

Ao calcular a média de todos os quadros, obtemos

\frac{1 1}{N} \sum_{Eu} Y_{Eu} [q] = H [q] + \frac{1 1}{N} \sum_{Eu} X_{Eu} [q]

$\dfrac{1}{N}\sum_{i} Y_i[q] = H[q] + \dfrac{1}{N}\sum_{i} X_i[q]$

Definindo a diferença:

\begin{matrix} R_{Eu} [q] & = Y_{Eu} [q] - \frac{1 1}{N} \sum_{j} Y_{j} [q] \\ = H [q] + X_{Eu} [q] - (H [q] + \frac{1 1}{N} \sum_{j} X_{j} [q]) \\ = X_{Eu} [q] - \frac{1 1}{N} \sum_{j} X_{j} [q] \end{matrix}

$\begin{array} &R_i[q] &= Y_i[q] - \dfrac{1}{N}\sum_{j} Y_j[q]\\ & = H[q] + X_i[q] - \left(H[q] + \dfrac{1}{N}\sum_{j} X_j[q]\right) \\ & = X_i[q] - \dfrac{1}{N}\sum_{j} X_j[q]\\ \end{array}$

Terminamos com nosso sinal com as distorções do canal removidas. Colocando todas as equações acima no inglês simples:

Calcular cepstrum
Subtraia a média de cada coeficiente
Opcionalmente, divida por variação para executar a Normalização Média Cepstral em oposição à Subtração.

A Normalização Média Cepstral é necessária?

Não é obrigatório, especialmente quando você está tentando reconhecer um alto-falante em um único ambiente. De fato, ele pode até deteriorar seus resultados, pois é propenso a erros devido ao ruído adicional:

y [n] = x [n] ⋆ h [n] + W [n]

$y[n] = x[n] \star h[n] + w[n]$

Y [f] = X [f] \cdot H [f] + W [f]

$Y[f] = X[f]\cdot H[f] + W[f]$

registro Y [f] = registro [X [f] (H [f] + \frac{W [f]}{X [f]})] = registro X [f] + registro (H [f] + \frac{W [f]}{X [f]})

$\log Y[f] = \log \left[X[f]\left(H[f]+\dfrac{W[f]}{X[f]} \right) \right] = \log X[f] +\log \left(H[f]+\color{red}{\dfrac{W[f]}{X[f]}} \right)$

Em condições ruins de SNR, o termo marcado pode ultrapassar a estimativa.

Embora quando o CMS é realizado, geralmente você pode ganhar alguns por cento extras. Se você aumentar esse ganho de desempenho com derivativos de coeficientes, obterá um aumento real de sua taxa de reconhecimento. A decisão final é com você, especialmente que existem muitos outros métodos usados para melhorar os sistemas de reconhecimento de fala.

— jojek
fonte

@ mun: Fico feliz que ajudou. Por que não marcar as respostas às suas perguntas como aceitas para que você possa remover as restrições de novos usuários?

— jojek

@ Mun: Parabéns! Agora você publica mais links, vota em perguntas e respostas + sinaliza postagens.

— jojek

Obrigado @jojek ..Eu sou muito novo para todos esses. Mas estou feliz que eu tenho meu problema resolvido.

— mun

@ Mun: Então eu definitivamente sugiro que você faça um tour

— jojek

Em última resposta, não consigo entender o que "acrescenta a esse ganho de desempenho derivado de coeficientes". Você pode dar uma explicação simples? Muito obrigado

— Shuai Wang