Respostas:
Vamos começar definindo as normas. Para uma matriz , o operador 2 -norm é definido como " X " 2 = s u p " X v " 2e norma Frobenius como‖X‖F=√
O PCA é fornecido pela mesma decomposição de valor singular quando os dados são centralizados. são componentes principais, V são eixos principais, ou seja, autovetores da matriz de covariância, e a reconstrução de X com apenas os k componentes principais correspondentes aos k maiores valores singulares é dada por X k = U k S k V ⊤ k .
O teorema de Eckart-Young diz que é a matriz que minimiza a norma do erro de reconstrução " X - A " entre todas as matrizes A da classificação k . Isso é verdade tanto para a norma Frobenius quanto para o operador 2 -norm. Como apontado por @cardinal nos comentários, foi provado por Schmidt (da fama de Gram-Schmidt) em 1907 para o caso Frobenius. Mais tarde foi redescoberto por Eckart e Young em 1936 e agora está associado principalmente a seus nomes. Mirsky generalizou o teorema em 1958 a todas as normas que são invariantes sob transformações unitárias, e isso inclui o operador 2-norma.
Esse teorema às vezes é chamado de teorema de Eckart-Young-Mirsky. Stewart (1993) o chama de teorema da aproximação de Schmidt. Eu já o vi chamado teorema de Schmidt-Eckart-Young-Mirsky.
Seja de posição completa n . Como A é da classificação k , seu espaço nulo tem n - k dimensões. O espaço medido pelos k + 1 vetores singulares à direita de X correspondentes aos maiores valores singulares possui k + 1 dimensões. Portanto, esses dois espaços devem se cruzar. Seja w um vetor unitário da interseção. Em seguida, obtemos: " X - A " 2 2 ≥ " ( X - A ) w " 2QED.
Queremos encontrar matriz de classificação k que minimiza ‖ X - A ‖ 2 F . Podemos fatorar A = B W ⊤ , onde W tem k colunas ortonormais. Minimizando ‖ X - B W ⊤ ‖ 2 para fixa W é um problema de regressão com solução B = X W . Ligá-lo, vemos que precisamos agora para minimizar ‖ X - X W W ⊤ onde Σ é a matriz de covariância de X , ou seja, Σ = X ⊤ X / ( n - 1 ) . Isso significa que o erro de reconstrução é minimizado tomando como colunas de W alguns k
É sabido que estes são os primeiros vetores da matriz de covariância. De fato, se X = U S V ⊤ , então Σ = V S 2 V ⊤ / ( n - 1 ) = V Λ V ⊤ . Escrita R = V ⊤ W que também tem colunas ortonormais, obtemos t R ( W ⊤ Σ W ) = t r ( R ⊤ Ganhe muitos R
Consulte os três segmentos relacionados a seguir:
Esta prova eu encontrei em algum lugar online, mas está errado (contém uma lacuna), conforme explicado por @cardinal nos comentários.