Componentes de baixa variação no PCA, eles são realmente apenas ruído? Existe alguma maneira de testar isso?

18

Estou tentando decidir se um componente de um PCA deve ser mantido ou não. Há um zilhão de critérios com base na magnitude do valor próprio, descrito e comparado, por exemplo, aqui ou aqui .

No entanto, na minha aplicação, eu sei que o valor próprio pequeno (est) será pequeno em comparação com o (st) valor próprio grande e os critérios baseados na magnitude rejeitariam o valor menor (est). Não é isso que eu quero. O que me interessa: existe algum método conhecido que leve em consideração o componente correspondente real do pequeno autovalor, no sentido: é realmente "apenas" ruído, como está implícito em todos os livros, ou existe "algo" de potencial interesse deixado? Se realmente houver ruído, remova-o, caso contrário, mantenha-o, independentemente da magnitude do valor próprio.

Existe algum tipo de aleatoriedade ou teste de distribuição estabelecido para componentes no PCA que não consigo encontrar? Ou alguém sabe de uma razão que isso seria uma idéia boba?

Atualizar

Histogramas (verde) e aproximações normais (azul) dos componentes em dois casos de uso: uma vez provavelmente muito barulhento, uma vez provavelmente não apenas "apenas" (sim, os valores são pequenos, mas provavelmente não aleatórios). O maior valor singular é ~ 160 em ambos os casos, o menor, ou seja, esse valor singular, é 0,0xx - muito pequeno para qualquer um dos métodos de corte.

O que estou procurando é uma maneira de formalizar isso ...

provavelmente realmente "apenas" barulho provavelmente não barulho, mas pode conter bits interessantes

pca

— Daniel
fonte

2

Muitos dos testes aos quais você se refere possuem exatamente a propriedade solicitada: eles tentam distinguir "ruído" de "sinal".

— whuber

2

Recentemente, estive interessado em uma pergunta semelhante, mas em uma situação específica em que você tem várias medidas para cada ponto de dados. Consulte Escolhendo o número de componentes PCA quando várias amostras para cada ponto de dados estão disponíveis . Talvez isso também se aplique ao seu caso?

— Ameba diz Reinstate Monica

Usar testes distributivos em PCs para decidir sobre sua aleatoriedade parece uma ideia muito interessante (que eu nunca vi aplicada); algo semelhante é feito na ACI, que procura especificamente componentes maximamente não-gaussianos. Fazer o PCA e depois descartar os componentes "muito gaussianos" tem um sabor de ICA e pode realmente funcionar!

— ameba diz Restabelecer Monica

20

Uma maneira de testar a aleatoriedade de um pequeno componente principal (PC) é tratá-lo como um sinal em vez de ruído: ou seja, tente prever outra variável de interesse com ele. Esta é essencialmente a regressão de componentes principais (PCR) .

$R^2$ $MSE$

Um modelo de engenharia química usando PCs 1, 3, 4, 6, 7 e 8 de 9 no total ^{( Smith & Campbell, 1980 )}
Um modelo de monção usando PCs 8, 2 e 10 (em ordem de importância) em 10 ^{( Kung & Sharif, 1980 )}
Um modelo econômico usando os PCs 4 e 5 em 6 ^{(Hill, Fomby & Johnson, 1977)}

Os PCs nos exemplos listados acima são numerados de acordo com os tamanhos classificados de seus autovalores. Jolliffe (1982) descreve um modelo de nuvem no qual o último componente contribui mais. Ele conclui:

Os exemplos acima mostraram que não é necessário encontrar dados obscuros ou bizarros para que os últimos poucos componentes principais sejam importantes na regressão de componentes principais. Pelo contrário, parece que esses exemplos podem ser bastante comuns na prática. Hill et al. (1977) dão uma discussão completa e útil das estratégias para selecionar componentes principais que deveriam ter enterrado para sempre a ideia de seleção baseada apenas no tamanho da variação. Infelizmente, isso não parece ter acontecido, e a idéia talvez seja mais difundida agora do que há 20 anos.

$SS$

$(p-1)$ $\text{Y}$

$\text{X}$

Devo esta resposta a @ Scortchi, que corrigiu meus próprios conceitos errados sobre a seleção de PCs na PCR com alguns comentários muito úteis, incluindo: " Jolliffe (2010) revisa outras maneiras de selecionar PCs". Essa referência pode ser um bom lugar para procurar mais idéias.

Referências

^{- Gunst, RF, & Mason, RL (1977). Estimação enviesada em regressão: uma avaliação usando erro quadrático médio. Jornal da Associação Estatística Americana, 72 (359), 616–628.

- Hadi, AS e Ling, RF (1998). Algumas notas de advertência sobre o uso da regressão de componentes principais. The American Statistician, 52 (1), 15–19. Recuperado em http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .

- Hawkins, DM (1973). Na investigação de regressões alternativas por análise de componentes principais. Estatística Aplicada, 22 (3), 275–286.

- Hill, RC, Fomby, TB e Johnson, SR (1977). Normas de seleção de componentes para regressão de componentes principais.Comunicações em Estatística - Teoria e Métodos, 6 (4), 309-334.

- Hotelling, H. (1957). As relações dos novos métodos estatísticos multivariados com a análise fatorial. British Journal of Statistical Psychology, 10 (2), 69–79.

- Jackson, E. (1991). Um guia do usuário para os principais componentes . Nova York: Wiley.

- Jolliffe, IT (1982). Nota sobre o uso de componentes principais na regressão. Estatística Aplicada, 31 (3), 300–303. Recuperado em http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

- Jolliffe, IT (2010).Análise de componentes principais (2ª ed.). Springer.

- Kung, EC, e Sharif, TA (1980). Previsão de regressão do início das monções de verão indianas com condições antecedentes do ar superior. Jornal de Meteorologia Aplicada, 19 (4), 370-380. Recuperado em http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .

- Lott, WF (1973). O conjunto ideal de restrições de componentes principais em uma regressão de mínimos quadrados. Comunicações em Estatística - Teoria e Métodos, 2 (5), 449-464.

- Mason, RL e Gunst, RF (1985). Selecionando componentes principais em regressão. Estatísticas e cartas de probabilidade, 3 (6), 299–301.

Massy, WF (1965). Regressão de componentes principais em pesquisa estatística exploratória. Jornal da Associação Estatística Americana, 60 (309), 234–256. Recuperado em http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .

- Smith, G. & Campbell, F. (1980). Uma crítica de alguns métodos de regressão de crista. Jornal da Associação Estatística Americana, 75 (369), 74–81. Recuperado de https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .}

— Nick Stauner
fonte

4

... e não há qualquer garantia de que o efeito necessário para resolver seu problema seja maior do que outros efeitos que são apenas emissão de ruído. o problema em questão. Eu vi de dados onde 95% da variância foi o ruído devido a alguns efeitos físicos ...

— cbeleites suporta Monica

3

Revisão muito boa, mas (desculpe-me por questionar novamente) o ritmo de Hadi & Ling, selecionar os PCs para reter em uma regressão com base em sua forte relação com a resposta, é tão perigoso quanto selecionar os preditores originais com base em sua forte relação com a resposta. A validação cruzada é essencial e o encolhimento é preferível. Pessoalmente, eu preferiria o uso criterioso do PCA, juntamente com o conhecimento do assunto, para orientar a redução de dados em preditores, cego à resposta, por exemplo, usando o primeiro PC de grupos de preditores que medem praticamente a mesma coisa ou determinados por agrupamento variável.

— Scortchi - Restabelece Monica

2

+1 (muito tempo atrás) a esta resposta, mas depois de revisar esse tópico agora, devo dizer que essa resposta não responde quase totalmente à pergunta original: o OP estava perguntando se é possível usar testes de distribuição nos componentes para julgar a aleatoriedade deles. Veja também meu último comentário ao OP.

— ameba diz Restabelecer Monica

2

Acrescentando à resposta do @Nick Stauner, quando você lida com clustering de subespaço, o PCA geralmente é uma solução ruim.

Ao usar o PCA, preocupa-se principalmente os vetores próprios com os valores próprios mais altos, que representam as direções em que os dados são mais "esticados". Se seus dados forem compostos por pequenos subespaços, o PCA os ignorará solenemente, pois eles não contribuem muito para a variação geral de dados.

Portanto, pequenos autovetores nem sempre são ruído puro.

— felipeduque
fonte