Tenho algumas perguntas rápidas sobre o PCA:
- O PCA assume que o conjunto de dados é gaussiano?
- O que acontece quando aplico um PCA a dados inerentemente não lineares?
Dado um conjunto de dados, o processo deve primeiro normalizar a média, definir a variação para 1, obter um SVD, reduzir a classificação e finalmente mapear o conjunto de dados para o novo espaço de classificação reduzida. No novo espaço, cada dimensão corresponde a uma "direção" de variação máxima.
- Mas a correlação desse conjunto de dados no novo espaço sempre é zero ou isso é verdade apenas para dados que são inerentemente gaussianos?
Suponha que eu tenha dois conjuntos de dados, "A" e "B", onde "A" corresponde a pontos amostrados aleatoriamente retirados de um gaussiano, enquanto "B" corresponde a pontos amostrados aleatoriamente de outra distribuição (digamos Poisson).
- Como o PCA (A) se compara ao PCA (B)?
- Observando os pontos no novo espaço, como eu determinaria que o PCA (A) corresponde aos pontos amostrados de um gaussiano, enquanto o PCA (B) corresponde aos pontos amostrados de um Poisson?
- A correlação dos pontos em "A" é 0?
- A correlação de pontos em "B" também é 0?
- Mais importante, estou fazendo a pergunta "certa"?
- Devo examinar a correlação ou há outra métrica que devo considerar?