Selecionando o número de componentes principais esparsos para incluir na regressão


9

Alguém tem experiência com abordagens para selecionar o número de componentes principais esparsos para incluir em um modelo de regressão?


Não tenho experiência com isso especificamente, mas presumiria que a validação cruzada seria uma boa abordagem (como sempre).
Ameba

Respostas:


4

Embora eu não tenha idéias diretas sobre sua pergunta, deparei-me com alguns trabalhos de pesquisa , que podem ser do seu interesse. Isso é claro, se eu entendi corretamente que você está falando de PCA esparso , regressão de componentes principais e tópicos relacionados. Nesse caso, aqui estão os papéis:


11
Eu não conhecia todas essas referências. Eles são muito bons - obrigado.
Frank Harrell

@FrankHarrell: De nada! Ainda bem que pude ajudar.
Aleksandr Blekh

1

Os resultados da validação cruzada também foram utilizados para determinar o número ideal de dimensões para o espaço LSI. Poucas dimensões não tiravam vantagem do poder preditivo dos dados; enquanto muitas dimensões resultaram em excesso de ajuste. A figura 4 mostra a distribuição dos erros médios para modelos com diferentes números de dimensões LSI. Os modelos com espaços LSI quadridimensionais produziram o menor número médio de erros e o menor número médio de erros; portanto, o modelo final foi construído usando um espaço LSI quadridimensional.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Posso postar uma cópia se você não for um membro ieee.

Isto é de um artigo que escrevi na graduação. Tive um problema em que precisava decidir quantas dimensões (a Indexação Semântica Latente é semelhante à PCA) a ser usada no meu modelo de regressão logística. O que fiz foi escolher uma métrica (ou seja, a taxa de erro ao usar uma probabilidade de sinalização de 0,5) e analisou a distribuição dessa taxa de erro para diferentes modelos treinados em diferentes números de dimensões. Eu escolhi o modelo com a menor taxa de erro. Você pode usar outras métricas, como a área sob a curva ROC.

Você também pode usar algo como regressão gradual para escolher o número de dimensões para você. Que tipo de regressão você está executando especificamente?

O que você quer dizer com esparsas btw?


PC esparso é, por exemplo, PCA com L1 (laço). No PCA comum, geralmente podemos inserir termos na ordem das variações explicadas. Com o PCA escasso, as coisas ficam um pouco mais erráticas, portanto a seleção talvez seja mais difícil.
Frank Harrell

A questão era especificamente sobre esparsos componentes principais, e esta resposta (bem como é) não dirigir-se em todos , de modo -1.
Ameba

Regressão passo a passo que escolhe componentes com base em associações com Yresultará em super ajuste, a menos que funções especiais de penalidade sejam incorporadas.
Frank Harrell

@FrankHarrell que potencialmente pode acontecer, mas é menos propenso a acontecer se você usar AIC, em vez de R-quadrado
Andrew Cassidy

@amoeba Estou confuso ... não, não lidei com a parte "esparsa" dos principais comentários, mas você fez exatamente a mesma sugestão para usar a validação cruzada em um comentário?
Andrew Cassidy
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.