A principal diferença entre DCT e PCA (mais precisamente, representando um conjunto de dados na base formada pelos vetores próprios de sua matriz de correlação - também conhecida como Karhunen Loeve Transform ) é que o PCA deve ser definido com relação a um determinado conjunto de dados (a partir do qual a matriz de correlação é estimada), enquanto o DCT é "absoluto" e é definido apenas pelo tamanho da entrada. Isso torna o PCA uma transformação "adaptável", enquanto o DCT é independente de dados.
Pode-se perguntar por que o PCA não é usado com mais frequência na compactação de imagem ou áudio, devido à sua adaptabilidade. Existem dois motivos:
Imagine um codificador computando um PCA de um conjunto de dados e codificando os coeficientes. Para reconstruir o conjunto de dados, o decodificador precisará não apenas dos coeficientes em si, mas também da matriz de transformação (depende dos dados, aos quais não tem acesso!). O DCT ou qualquer outra transformação independente de dados pode ser menos eficiente na remoção de dependências estatísticas nos dados de entrada, mas a matriz de transformação é conhecida antecipadamente pelo codificador e pelo decodificador sem a necessidade de transmiti-la. Uma transformação "suficientemente boa", que requer pouca informação lateral, às vezes é melhor do que uma transformação ideal, que requer uma carga extra de informação lateral ...
NN× 64matriz com a luminosidade desses ladrilhos. Calcule um PCA com esses dados e plote os principais componentes que serão estimados. Este é um experimento muito esclarecedor! Há uma chance muito boa de que a maioria dos autovetores de maior classificação realmente se pareça com o tipo de padrão de onda senoidal modulada da base do DCT. Isso significa que, para um conjunto suficientemente grande e genérico de blocos de imagem, o DCT é uma aproximação muito boa da base própria. O mesmo também foi verificado para o áudio, onde a base própria para a energia do sinal de log nas bandas de frequência espaçadas por mel, estimada em um grande volume de gravações de áudio, está próxima da base do DCT (daí o uso do DCT como uma transformação de correlação) ao computar o MFCC).