A razão pela qual você vê a transformação de Fourier aplicada duas vezes no processo de extração de recursos é que eles são baseados em um conceito chamado cepstrum. Cepstrum é uma brincadeira com a palavra espectro - essencialmente, a idéia é transformar um sinal no domínio da frequência pela transformada de Fourier e depois executar outra transformação como se o espectro de frequências fosse um sinal.
Enquanto o espectro de frequências descreve a amplitude e a fase de cada banda de frequência, o cepstrum caracteriza variações entre as bandas de frequência. As características derivadas do cepstrum são encontradas para melhor descrever a fala do que as características obtidas diretamente do espectro de frequências.
Existem algumas definições ligeiramente diferentes. Originalmente, a transformação de ceptro foi definida como transformada de Fourier -> logaritmo complexo -> transformada de Fourier [1]. Outra definição é transformada de Fourier -> logaritmo complexo -> transformada inversa de Fourier [2]. A motivação para esta última definição está em sua capacidade de separar sinais convoluídos (a fala humana é frequentemente modelada como a convolução de uma excitação e um trato vocal).
Uma escolha popular que tem bom desempenho em sistemas de reconhecimento de fala é aplicar um banco de filtros não linear no domínio da frequência (o mel binning a que você está se referindo) [3]. O algoritmo específico é definido como transformada de Fourier -> quadrado de magnitude -> banco de filtros de mel -> logaritmo real -> transformação discreta de cosseno.
Aqui, o DCT pode ser selecionado como a segunda transformação, porque, para entradas com valor real, a parte real do DFT é um tipo de DCT. A razão pela qual o DCT é preferido é que a saída é aproximadamente correlacionada. Recursos descorrelacionados podem ser modelados eficientemente como uma distribuição Gaussiana com uma matriz de covariância diagonal.
[1] Bogert, B., Healy, M. e Tukey, J. (1963). A Alanese de Quefrência de Séries Temporais para Ecos: Cepstrum, Pseudo-Autocovariância, Cross-Cepstrum e Saphe Cracking. Em Anais do Simpósio de Análise de Séries Temporais, p. 209-243.
[2] Oppenheim, A. e Schafer, R. (1968). Análise Homomórfica da Fala. Nas transações IEEE sobre áudio e eletroacústica 16, p. 221-226.
[3] Davis, S. e Mermelstein, P. (1980). Comparação de representações paramétricas para reconhecimento de palavras monossilábicas em frases continuamente pronunciadas. Nas transações do IEEE sobre acústica, processamento de fala e sinal 28, p. 357-366.