O que se entende por variação em várias dimensões ("variação total") é simplesmente uma soma de variações em cada dimensão. Matematicamente, é um traço da matriz de covariância: o traço é simplesmente uma soma de todos os elementos diagonais. Essa definição possui várias propriedades interessantes, por exemplo, o traço é invariável sob transformações lineares ortogonais, o que significa que se você girar seus eixos de coordenadas, a variação total permanecerá a mesma.
O que é provado no livro de Bishop (seção 12.1.1), é que o principal vetor próprio da matriz de covariância fornece a direção da variação máxima. O segundo vetor próprio fornece a direção da variação máxima sob uma restrição adicional de que ele deve ser ortogonal ao primeiro vetor próprio etc. (acredito que isso constitui o Exercício 12.1). Se o objetivo é maximizar a variação total no subespaço 2D, esse procedimento é uma maximização gananciosa: primeiro escolha um eixo que maximize a variação e depois outro.
Sua pergunta é: por que esse procedimento ganancioso obtém um máximo global?
Aqui está um bom argumento que @whuber sugeriu nos comentários. Vamos primeiro alinhar o sistema de coordenadas com os eixos PCA. A matriz de covariância se torna diagonal: . Por simplicidade, consideraremos o mesmo caso 2D, ou seja, qual é o plano com variação total máxima? Queremos provar que é o plano dado pelos dois primeiros vetores de base (com variação total ).Σ=diag(λi)λ1+λ2
Considere um plano estendido por dois vetores ortogonais e . A variação total nesse plano éPortanto, é uma combinação linear de autovalores com coeficientes todos positivos, que não excedem (veja abaixo) e somam . Nesse caso, é quase óbvio que o máximo é atingido em .uv
u⊤Σu+v⊤Σv=∑λiu2i+∑λiv2i=∑λi(u2i+v2i).
λi12λ1+λ2
Só resta mostrar que os coeficientes não podem exceder . Observe que , onde é o ésimo vetor base. Essa quantidade é um comprimento ao quadrado de uma projeção de no plano medido por e . Portanto, ele deve ser menor que o comprimento ao quadrado de que é igual a , QED.1u2k+v2k=(u⋅k)2+(v⋅k)2kkkuvk|k|2=1
Veja também a resposta do @ cardinal para Qual é a função objetivo do PCA? (segue a mesma lógica).