Um DCT poderia ser usado para um espectro de magnitude de áudio em vez de DFT?

Pelo que entendi, o DCT tem metade do tamanho do compartimento como um DFT do mesmo tamanho N. O DFT também inclui informações de fase, mas muitas vezes isso não é necessário quando apenas o espectro de magnitude é desejado.

O DCT poderia ser usado para fornecer um espectro de magnitude com o dobro da densidade (metade do espaçamento entre caixas) da DFT ou as informações fora de fase seriam perdidas?
Que tal com uma sobreposição de 50%?

dct dft

— Jacob
fonte

Acredito que o DCT também inclui informações de fase, apenas não usa números complexos. O "FFT real" também usa metade da memória e metade do tempo de computação para a mesma informação, jogando fora as frequências negativas idênticas. "a parte real de uma FFT de comprimento duplo é a mesma da DCT, exceto pela mudança de fase de meia amostra nas funções da base sinusoidal"

— endólito

De fato, no mínimo, o sinal de um coeficiente pode ser considerado como a fase de um homem pobre

— Laurent Duval

Respostas:

Sim, o DCT pode ser usado para fornecer um espectro de magnitude com o dobro da densidade. Não entendo bem a sobreposição, mas estou assumindo que, como o DCT cobre menos, você pensou que haveria uma sobreposição. Para fornecer uma resposta qualificada à pergunta, faça uma revisão rápida do uso do DCT principalmente no processamento de imagens.

Primeiro, precisamos fazer algumas suposições. Para usar o DCT, você precisa ter um sinal real. Isto é por definição. Enquanto você está dizendo, o DCT tem metade do tamanho do compartimento em comparação com o DFT no tamanho N, você está assumindo que o sinal é de baixa frequência. Caso contrário, nem tanto.

Para o uso de DCT na compactação, como a DFT da imagem será simétrica, ela produz informações redundantes (um espelho lateral será suficiente para reproduzir o sinal). Portanto, o kernel do DCT é usado para produzir informações mais densas em comparação ao DFT. Isso também é válido para sinais de áudio de baixa frequência, pois pode ser usado da mesma maneira. Enquanto o torna mais denso, os coeficientes aumentam, pois o núcleo do DCT cobre os dois lados (partes reais e imaginárias) do sinal.

Meu principal é processamento de imagens, então tentei mapear conceitos e explicações sobre DCT e DFT no processamento de imagens. Uma diferença entre imagem e áudio pode ser o tamanho. No processamento de imagens, você conhece os tamanhos (linha e colunas para FFT e outras finalidades de processamento). Eu acho que você precisa dividir o vetor de dados de áudio de alguma forma para continuar processando. Sem conhecer os dados, isso pode ser problemático (não tenho certeza).

Aqui está uma imagem tirada da web, mas eu não a escrevi para onde a tirei, poderia ser na Wikipedia;

Processamento de imagem

Como você pode ver, a imagem transformada é representada no DCT pelo espectro de magnitude sem nenhum problema. De uma maneira mais compacta e mais densa, observe a magnitude dos coeficientes. É maior que duas vezes o DFT. DFT é simétrico, você pode dividi-lo em dois. Uma parte é redundante. E mais uma coisa, o DCT pode armazenar as informações não apenas na metade da DFT, mas em quase um quarto da DFT. Esse é geralmente o caso da DCT superando a DFT em imagens.

— Hefesto
fonte

A FFT não pode ser dividida em quartos, porque é redundante nas dimensões X e Y?

— endolith

Por que parece que a FFT contém mais informações e o DCT contém mais zeros?

— endolith

Primeira pergunta, eu não entendo direito, o que você quer dizer com dimensões X e Y? Para segunda pergunta, é por causa da diferença em seus núcleos. Não parece que o DCT contenha mais zeros, na verdade, contém mais zeros que a transformada de Fourier normal (DFT). Isso se deve novamente à diferença entre seus kernels.

— Hefesto

Quero dizer que a imagem é um sinal real, então a FFT contém informações redundantes. A metade negativa da FFT é apenas um espelho da metade positiva, em ambas as dimensões.

— endolith

Que tal com uma sobreposição de 50%?

A partir desta pergunta, entendo que você está pensando em realizar processamento localizado em bloco, da maneira que desliza Fourier ou espectrograma.

O DCT poderia ser usado para fornecer um espectro de magnitude com o dobro da densidade (metade do espaçamento entre caixas) da DFT ou as informações fora de fase seriam perdidas?

Se você falar sobre espectro de magnitude, é claro que parte da fase (seja o argumento de um coeficiente de Fourier complexo ou o sinal de um coeficiente de DCT) será perdido de qualquer maneira .

Portanto, é claro que você pode conectar muitos kernels em substituição à transformada de Fourier com janela dentro da formulação de Fourier de curto prazo apenas para análise. As várias raças de DCT, suas versões sobrepostas (LOT, MDCT), com boas propriedades ortogonais e de janela, podem até ser invertidas (síntese).

Em áudio, versões DCT (não complexas) ou sobrepostas são frequentemente usadas para análise, detecção de onset e pitch, (separação de fontes cegas), por exemplo, o STFT, MDCT e inverte a caixa de ferramentas Matlab de A. Liutkus. A caixa de ferramentas de análise de frequência em tempo integral (LTFAT) também possui:

Transformações rápidas de TF com uma escala linear de tempo e frequência: Gabor (STFT), Wilson e MDCT em janelas

Regressão esparsa no domínio Gabor e WMDCT

Eu não conheço áudio muito bem. No entanto, uma sobreposição de 50% ou 75% é muito comum e poucas pessoas usam outras configurações. No entanto, é muito comum usar pelo menos dois tamanhos de janelas , uma longa com parte estacionária e outra curta para transitória, para ajudar a superar a limitação de frequência de tempo de "uma janela".

— Laurent Duval
fonte