Uma maneira de testar a aleatoriedade de um pequeno componente principal (PC) é tratá-lo como um sinal em vez de ruído: ou seja, tente prever outra variável de interesse com ele. Esta é essencialmente a regressão de componentes principais (PCR) .
R2MSE
- Um modelo de engenharia química usando PCs 1, 3, 4, 6, 7 e 8 de 9 no total ( Smith & Campbell, 1980 )
- Um modelo de monção usando PCs 8, 2 e 10 (em ordem de importância) em 10 ( Kung & Sharif, 1980 )
- Um modelo econômico usando os PCs 4 e 5 em 6 (Hill, Fomby & Johnson, 1977)
Os PCs nos exemplos listados acima são numerados de acordo com os tamanhos classificados de seus autovalores. Jolliffe (1982) descreve um modelo de nuvem no qual o último componente contribui mais. Ele conclui:
Os exemplos acima mostraram que não é necessário encontrar dados obscuros ou bizarros para que os últimos poucos componentes principais sejam importantes na regressão de componentes principais. Pelo contrário, parece que esses exemplos podem ser bastante comuns na prática. Hill et al. (1977) dão uma discussão completa e útil das estratégias para selecionar componentes principais que deveriam ter enterrado para sempre a ideia de seleção baseada apenas no tamanho da variação. Infelizmente, isso não parece ter acontecido, e a idéia talvez seja mais difundida agora do que há 20 anos.
SS
( p - 1 )Y
X
Devo esta resposta a @ Scortchi, que corrigiu meus próprios conceitos errados sobre a seleção de PCs na PCR com alguns comentários muito úteis, incluindo: " Jolliffe (2010) revisa outras maneiras de selecionar PCs". Essa referência pode ser um bom lugar para procurar mais idéias.
Referências
- Gunst, RF, & Mason, RL (1977). Estimação enviesada em regressão: uma avaliação usando erro quadrático médio. Jornal da Associação Estatística Americana, 72 (359), 616–628.
- Hadi, AS e Ling, RF (1998). Algumas notas de advertência sobre o uso da regressão de componentes principais. The American Statistician, 52 (1), 15–19. Recuperado em http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Hawkins, DM (1973). Na investigação de regressões alternativas por análise de componentes principais. Estatística Aplicada, 22 (3), 275–286.
- Hill, RC, Fomby, TB e Johnson, SR (1977). Normas de seleção de componentes para regressão de componentes principais.Comunicações em Estatística - Teoria e Métodos, 6 (4), 309-334.
- Hotelling, H. (1957). As relações dos novos métodos estatísticos multivariados com a análise fatorial. British Journal of Statistical Psychology, 10 (2), 69–79.
- Jackson, E. (1991). Um guia do usuário para os principais componentes . Nova York: Wiley.
- Jolliffe, IT (1982). Nota sobre o uso de componentes principais na regressão. Estatística Aplicada, 31 (3), 300–303. Recuperado em http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, IT (2010).Análise de componentes principais (2ª ed.). Springer.
- Kung, EC, e Sharif, TA (1980). Previsão de regressão do início das monções de verão indianas com condições antecedentes do ar superior. Jornal de Meteorologia Aplicada, 19 (4), 370-380. Recuperado em http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, WF (1973). O conjunto ideal de restrições de componentes principais em uma regressão de mínimos quadrados. Comunicações em Estatística - Teoria e Métodos, 2 (5), 449-464.
- Mason, RL e Gunst, RF (1985). Selecionando componentes principais em regressão. Estatísticas e cartas de probabilidade, 3 (6), 299–301.
Massy, WF (1965). Regressão de componentes principais em pesquisa estatística exploratória. Jornal da Associação Estatística Americana, 60 (309), 234–256. Recuperado em http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G. & Campbell, F. (1980). Uma crítica de alguns métodos de regressão de crista. Jornal da Associação Estatística Americana, 75 (369), 74–81. Recuperado de https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .