Eu tenho um grande conjunto de dados que consiste nos valores de várias centenas de variáveis financeiras que podem ser usadas em uma regressão múltipla para prever o comportamento de um fundo de índice ao longo do tempo. Eu gostaria de reduzir o número de variáveis para dez ou mais, mantendo o máximo de poder preditivo possível. Adicionado: o conjunto reduzido de variáveis precisa ser um subconjunto do conjunto de variáveis original para preservar o significado econômico das variáveis originais. Assim, por exemplo, não devo terminar com combinações lineares ou agregados das variáveis originais.
Alguns pensamentos (provavelmente ingênuos) sobre como fazer isso:
- Execute uma regressão linear simples com cada variável e escolha os dez com os maiores valores de . Obviamente, não há garantia de que as dez melhores variáveis individuais combinadas sejam o melhor grupo de dez.
- Execute uma análise de componentes principais e tente encontrar as dez variáveis originais com as maiores associações com os primeiros eixos principais.
Eu não acho que posso executar uma regressão hierárquica porque as variáveis não estão realmente aninhadas. Tentar todas as combinações possíveis de dez variáveis é inviável computacionalmente porque existem muitas combinações.
Existe uma abordagem padrão para resolver esse problema de redução do número de variáveis em uma regressão múltipla?
Parece que isso seria um problema suficientemente comum e haveria uma abordagem padrão.
Uma resposta muito útil seria aquela que não apenas menciona um método padrão, mas também fornece uma visão geral de como e por que ele funciona. Como alternativa, se não houver uma abordagem padrão, mas múltiplas com diferentes pontos fortes e fracos, uma resposta muito útil seria aquela que discuta seus prós e contras.
O comentário do whuber abaixo indica que a solicitação no último parágrafo é muito ampla. Em vez disso, aceitaria como boa resposta uma lista das principais abordagens, talvez com uma breve descrição de cada uma. Depois de ter os termos, posso desenterrar os detalhes de cada um.