Por que um codificador de MP3 usa uma transformação rápida de Fourier antes de aplicar o modelo psicoacústico?

Karlheinz Brandenburg descreve um codificador MP3 como este:

Marquei a FFT porque não tenho muita certeza do porquê é realmente necessário realizar uma. Por que o modelo psicoacústico não pode ser aplicado às chamadas linhas após a transformada discreta de cosseno modificada (MDCT) sem executar uma FFT?

Eu tenho alguma literatura aqui, dizendo que a resolução de frequência não é precisa o suficiente. Isso significa que dividir o sinal original em 576 linhas (como o banco de filtros e o MDCT) não é preciso o suficiente para o modelo psicoacústico funcionar corretamente? A FFT é mais precisa?

algorithms data-compression fourier-transform

— Phonolog
fonte

O banco de filtros e o canal MDCT são a fonte de erro que o modelo psicoacústico está tentando minimizar, ou seja, o canal superior está com perdas. Dos números que parecem corretos - 1024 componentes de frequência no sinal verdadeiro em comparação com 576 no pipeline de compressão.

— KWillets

Eu sugeriria uma explicação mais detalhada do codec mp3 .

A FFT é aplicada no sinal no domínio do tempo, portanto, na verdade, ela não usa o resultado da MDCT. A entrada para os modelos psicoacústicos está no domínio da frequência, daí a FFT.

Existem pelo menos várias razões para fazê-lo. O MDCT com filtrobanks opera em pedaços sobrepostos muito curtos, maximizando a compactação - o FFT usa amostras mais longas e tem melhor resolução espectral. (É difícil comparar, pois o MDCT opera como transformação de curto prazo; se isso é de grande importância para você, precisarei fazer essa comparação.)

É possível pensar no MDCT do banco de filtros da mesma maneira que na quantização JPEG (é uma analogia muito boa, pois ambos usam DCT) e FFT para detectar artefatos DCT da compactação. Então, o modelo psicoacústico suaviza os erros para que caiam abaixo do limiar "audível", mas para fazer isso, as amostras no domínio do tempo (aqui PCM - Modulação de código de pulso não são suficientes, porque mudanças súbitas de frequência são ouvidas como rachaduras) - então ele usa o domínio da frequência para detectar essas descontinuidades e depois suavizá-lo no domínio do tempo.

Duas coisas não são explicadas nos artigos, mas são cruciais. Quando as diferenças de PCM são altas, o alto-falante tem mais distância para viajar, portanto, há um atraso de tempo e, dependendo das habilidades do alto-falante, pode causar apenas vibrações adicionais, que são ruídos bastante distintos do alto-falante. A segunda parte é entre linhas, a versão quantizada do sinal é transformada novamente para compará-lo com o som original e verificar o quanto ele se desvia.

Com base no tipo de máscara das janelas (com base na comparação de FFT e MDCT invertido), é escolhido para compensar melhor os desvios audíveis do original.

Os seres humanos percebem mudanças de frequência melhores que as mudanças de amplitude, de modo que o filtro opera nos dois domínios de uma só vez, e o sinal quantizado é revertido e a suavização é feita no domínio do tempo.

Sim, a resolução do MDCT com bancos de filtros não é suficiente, mas é a parte em que ocorre uma parte justa da compactação e, em seguida, é mascarada. Mas o modelo psicoacústico tem resolução espectral, conforme apresentado no artigo.

Sim, a FFT é mais precisa porque obtém amostras mais longas, por isso tem melhor resolução entre as caixas.

Nota de rodapé
O (M) DCT é geralmente implementado executando a FFT, portanto, isso não tem nada a ver com a transformação usada. A MDCT pode ser vista como uma transformada de Fourier de curto prazo modificada em bits com um filtro especialmente escolhido (os bancos de filtros se assemelham à escala Mel para reconhecimento de fala).

A FFT é usada por mais tempo, fornece algoritmos mais fáceis para a mudança de tom e é mais fácil de aplicar no som. (M) O DCT minimiza o número de componentes, o que significa que podemos cortar mais dados do resultado do que da FFT.

Porém, no caso de som, esses componentes não são estáveis, o corte sempre, por exemplo, de dois compartimentos, resultará em maior distorção entre os quadros consecutivos do que em operações equivalentes nos resultados da FFT. Portanto, a conexão entre a FFT e o que ouvimos é maior que (M) DCT e o que ouvimos, mas a compressão disponível é o contrário.

— Mal
fonte