Alguém tem experiência com abordagens para selecionar o número de componentes principais esparsos para incluir em um modelo de regressão?
Alguém tem experiência com abordagens para selecionar o número de componentes principais esparsos para incluir em um modelo de regressão?
Respostas:
Embora eu não tenha idéias diretas sobre sua pergunta, deparei-me com alguns trabalhos de pesquisa , que podem ser do seu interesse. Isso é claro, se eu entendi corretamente que você está falando de PCA esparso , regressão de componentes principais e tópicos relacionados. Nesse caso, aqui estão os papéis:
Os resultados da validação cruzada também foram utilizados para determinar o número ideal de dimensões para o espaço LSI. Poucas dimensões não tiravam vantagem do poder preditivo dos dados; enquanto muitas dimensões resultaram em excesso de ajuste. A figura 4 mostra a distribuição dos erros médios para modelos com diferentes números de dimensões LSI. Os modelos com espaços LSI quadridimensionais produziram o menor número médio de erros e o menor número médio de erros; portanto, o modelo final foi construído usando um espaço LSI quadridimensional.
Posso postar uma cópia se você não for um membro ieee.
Isto é de um artigo que escrevi na graduação. Tive um problema em que precisava decidir quantas dimensões (a Indexação Semântica Latente é semelhante à PCA) a ser usada no meu modelo de regressão logística. O que fiz foi escolher uma métrica (ou seja, a taxa de erro ao usar uma probabilidade de sinalização de 0,5) e analisou a distribuição dessa taxa de erro para diferentes modelos treinados em diferentes números de dimensões. Eu escolhi o modelo com a menor taxa de erro. Você pode usar outras métricas, como a área sob a curva ROC.
Você também pode usar algo como regressão gradual para escolher o número de dimensões para você. Que tipo de regressão você está executando especificamente?
O que você quer dizer com esparsas btw?