Sem tentar fornecer um iniciador completo no PCA, do ponto de vista da otimização, a principal função objetivo é o quociente de Rayleigh . A matriz que figura no quociente é (alguns múltiplos) da matriz de covariância de amostra
onde cada é um vector de características e é a matriz de tal modo que a -ésima linha é .xipXix T i
S=1n∑i=1nxixTi=XTX/n
xipXixTi
O PCA procura resolver uma sequência de problemas de otimização. O primeiro da sequência é o problema irrestrito
maximizeuTSuuTu,u∈Rp.
Desde, o problema irrestrito acima é equivalente ao problema restrito
uTu=∥u∥22=∥u∥∥u∥
maximizesubject touTSuuTu=1.
Aqui é onde a álgebra da matriz entra. Como é uma matriz semidefinida positiva simétrica (por construção!), Ela tem uma decomposição de autovalor da forma
onde é matriz ortogonal (então ) e é uma matriz diagonal com entradas não-negativas tais que .S
S=QΛQT,
QQQT=IΛλiλ1≥λ2≥⋯≥λp≥0
Portanto, . Como está restrito no problema a ter uma norma de um, também o é pois , em virtude de ser ortogonal.uTSu=uTQΛQTu=wTΛw=∑pi=1λiw2iuw∥w∥2=∥QTu∥2=∥u∥2=1Q
Mas, se queremos maximizar a quantidade sob as restrições que , o melhor que podemos fazer é: defina , ou seja, e para .∑pi=1λiw2i∑pi=1w2i=1w=e1w1=1wi=0i>1
Agora, retornando o correspondente , que é o que buscamos em primeiro lugar, obtemos que
onde indica a primeira coluna de , isto é, o vector próprio correspondente ao maior valor próprio de . O valor da função objetivo também é facilmente visto como .u
u⋆=Qe1=q1
q1QSλ1
Os vetores de componentes principais restantes são encontrados resolvendo a sequência (indexada por ) dos problemas de otimização
Portanto, o problema é o mesmo, exceto que adicionamos a restrição adicional de que a solução deve ser ortogonal a todas as soluções anteriores na sequência. Não é difícil estender a discussão acima indutivamente para mostrar que a solução do th problema é, de facto, , o th vector próprio de .i
maximizesubject touTiSuiuTiui=1uTiuj=0∀1≤j<i.
iqiiS
A solução PCA também é frequentemente expressa em termos da decomposição de valor singular de . Para ver por isso, deixe . Então e então (estritamente falando, até assinar flips) e .XX=UDVTnS=XTX=VD2VTV=QΛ=D2/n
Os componentes principais são encontrados projetando nos vetores dos componentes principais. A partir da formulação SVD apresentada, é fácil ver que
X
XQ=XV=UDVTV=UD.
A simplicidade de representação dos vetores de componentes principais e dos próprios componentes principais em termos do SVD da matriz de recursos é um dos motivos pelos quais o SVD apresenta tanto destaque em alguns tratamentos de PCA.