Existem várias alternativas para a regressão gradual . Os mais usados que eu vi são:
- Opinião de especialista para decidir quais variáveis incluir no modelo.
- Regressão parcial de mínimos quadrados . Você basicamente obtém variáveis latentes e faz uma regressão com elas. Você também pode fazer o PCA sozinho e, em seguida, usar as principais variáveis.
- Operador de mínimo encolhimento e seleção absoluto (LASSO).
O PLS Regression e o LASSO são implementados em pacotes R como
PLS : http://cran.r-project.org/web/packages/pls/ e
LARS : http://cran.r-project.org/web/packages/lars/index.html
Se você deseja apenas explorar o relacionamento entre sua variável dependente e as variáveis independentes (por exemplo, você não precisa de testes de significância estatística), eu também recomendaria métodos de Aprendizado de Máquina como Florestas Aleatórias ou Árvores de Classificação / Regressão . As florestas aleatórias também podem aproximar relacionamentos não lineares complexos entre suas variáveis dependentes e independentes, o que pode não ter sido revelado por técnicas lineares (como Regressão linear ).
Um bom ponto de partida para o Machine Learning pode ser a exibição da tarefa Machine Learning no CRAN:
Visualização da tarefa de aprendizado de máquina : http://cran.r-project.org/web/views/MachineLearning.html