Quais são as boas métricas para avaliar a qualidade de um ajuste de PCA, a fim de selecionar o número de componentes?

10

Qual é uma boa métrica para avaliar a qualidade da análise de componentes principais (PCA)?

Eu executei esse algoritmo em um conjunto de dados. Meu objetivo era reduzir o número de recursos (a informação era muito redundante). Sei que a porcentagem de variação mantida é um bom indicador da quantidade de informações que mantemos; existem outras métricas de informações que posso usar para garantir a remoção de informações redundantes e a "perda" dessas informações?

— grande árvore
fonte

3

A rigor, não há informações "redundantes", a menos que seus dados iniciais sejam perfeitamente colineares. Geralmente, vemos a porcentagem de variação retida ("usamos os cinco primeiros componentes principais, responsáveis por 90% da variação"). Estou interessado em ver alternativas.

— Stephan Kolassa

Como uma de suas tags é a teoria da informação: uma maneira indireta de avaliar se o PCA funciona é verificar as suposições sob as quais a teoria da informação nos diz que ela tem baixa perda de informações para uma determinada redução de dimensão. O Wiki diz que é assim quando seus dados são uma soma de sinal gaussiano mais ruído gaussiano. pt.wikipedia.org/wiki/…

— CloseToC

17

Suponho que parte dessa pergunta é se existem outras métricas além da variância percentual cumulativa (CPV) e da abordagem similar do scree plot. A resposta para isso é sim, muitos .

Um excelente artigo sobre algumas opções é Valle 1999:

Seleção do número de componentes principais: a variação do critério de erro de reconstrução com uma comparação com outros métodos

Sergio Valle, Weihua Li e S. Joe Qin, Pesquisa em Química Industrial e Engenharia 1999 38 (11), 4389-4401

Ele abrange o CPV, mas também a Análise Paralela, Validação Cruzada, Variação do Erro de Reconstrução (VRE), métodos baseados em critérios de informação e muito mais. Você pode seguir a recomendação feita pelo artigo após comparar e usar o VRE, mas a validação cruzada com base no PRESS também funciona bem na minha experiência e eles também obtêm bons resultados. Na minha experiência, o CPV é conveniente e fácil, e faz um trabalho decente, mas esses dois métodos geralmente são melhores.

Existem outras maneiras de avaliar o quão bom é o seu modelo PCA se você souber mais sobre os dados. Uma maneira é comparar as cargas estimadas de PCA com as verdadeiras se você as conhece (o que você faria em simulações). Isso pode ser feito calculando o viés das cargas estimadas para as verdadeiras. Quanto maior o seu viés, pior o seu modelo. Para saber como fazer isso, você pode conferir este documento onde eles usam essa abordagem para comparar métodos. Porém, não é utilizável em casos reais de dados, onde você não conhece os verdadeiros carregamentos de PCA. Isso fala menos de quantos componentes você removeu do que o viés do seu modelo devido à influência de observações externas, mas ainda serve como uma métrica de qualidade do modelo.

— Deathkill14
fonte

4

Link para o artigo de Valle, Li e Qin

— Zhubarb

3

Existem também medidas baseadas em critérios teóricos da informação, como

MDL da Rissanen (e variações)

— Nikos M.
fonte

@user: 45382 Sim, esse é outro. Também é abordado no artigo que Zhubarb vincula.

— DeathKill14

@ Deathkill14 corrigir i ler o jornal, acções de informação da teoria são mencionados (na verdade como boas alternativas)

— Nikos M.

Um excelente artigo teórico sobre MDL, MML e bayesianismo: Vitany & Li, MDL ideal e sua relação com o bayesianismo citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Outros métodos de seleção de modelos, como AIC e BIC, são implementações efetivas do MDL.

— ggll