No caso de PCA, "variação" significa variação somativa ou variabilidade multivariada ou variabilidade geral ou variabilidade total . Abaixo está a matriz de covariância de cerca de 3 variáveis. Suas variações estão na diagonal e a soma dos 3 valores (3.448) é a variabilidade geral.
1.343730519 -.160152268 .186470243
-.160152268 .619205620 -.126684273
.186470243 -.126684273 1.485549631
Agora, o PCA substitui as variáveis originais por novas variáveis, chamadas componentes principais, ortogonais (ou seja, com zero covariações) e com variações (chamadas autovalores) em ordem decrescente. Portanto, a matriz de covariância entre os principais componentes extraídos dos dados acima é esta:
1.651354285 .000000000 .000000000
.000000000 1.220288343 .000000000
.000000000 .000000000 .576843142
Observe que a soma diagonal ainda é 3.448, o que indica que todos os três componentes são responsáveis por toda a variabilidade multivariada. O 1º componente principal responde ou "explica" 1,651 / 3,448 = 47,9% da variabilidade geral; o segundo explica 1.220 / 3.448 = 35,4%; o terceiro explica 0,577 / 3,448 = 16,7%.
Então, o que eles querem dizer quando dizem que " PCA maximiza a variação " ou " PCA explica a variação máxima "? Naturalmente, isso não significa que ele encontre a maior variação entre três valores 1.343730519 .619205620 1.485549631
, não. O PCA localiza, no espaço de dados, a dimensão (direção) com a maior variação da variação geral1.343730519+.619205620+1.485549631 = 3.448
. Essa maior variação seria 1.651354285
. Em seguida, encontra a dimensão da segunda maior variação, ortogonal à primeira, da 3.448-1.651354285
variação geral restante . Essa segunda dimensão seria 1.220288343
variação. E assim por diante. A última dimensão restante é a .576843142
variação. Veja também "Pt3" aqui e a grande resposta aqui explicando como foi feito com mais detalhes.
Matematicamente, o PCA é realizado por meio de funções de álgebra linear denominadas decomposição de eigen ou decomposição de svd. Essas funções retornarão todos os autovalores 1.651354285 1.220288343 .576843142
(e os autovetores correspondentes) de uma vez ( veja , consulte ).