Quais são as alternativas modernas e facilmente usadas para a regressão gradual?

76

Eu tenho um conjunto de dados com cerca de 30 variáveis independentes e gostaria de construir um modelo linear generalizado (GLM) para explorar o relacionamento entre elas e a variável dependente.

Estou ciente de que o método que me foi ensinado para essa situação, a regressão gradual, agora é considerado um pecado estatístico .

Quais métodos modernos de seleção de modelos devem ser usados nessa situação?

— fmark
fonte

4

Outras pessoas mencionam procedimentos estatísticos que podem ser úteis, mas eu perguntaria primeiro se você tem alguma teoria sobre a força e a forma do relacionamento entre variáveis. Qual é o tamanho da sua amostra? Você tem motivos para evitar modelos complexos?

— Michael Bishop

2

Alguém considerou a média do modelo como uma alternativa para combater o problema de preconceito no pré-teste e questões de falta de especificação? Grosso modo, todas as variáveis são preditores em potencial e você pode estimar a probabilidade de serem úteis. Assim, o estimador combinado não apenas melhora o desempenho da previsão, mas também produz boas estimativas de propriedades para os parâmetros das variáveis no "escopo".

— Dmitrij Celov

1

Encolhimento. Ninguém usa gradual mais, espero

— Aksakal

56

Existem várias alternativas para a regressão gradual . Os mais usados que eu vi são:

Opinião de especialista para decidir quais variáveis incluir no modelo.
Regressão parcial de mínimos quadrados . Você basicamente obtém variáveis latentes e faz uma regressão com elas. Você também pode fazer o PCA sozinho e, em seguida, usar as principais variáveis.
Operador de mínimo encolhimento e seleção absoluto (LASSO).

O PLS Regression e o LASSO são implementados em pacotes R como

PLS : http://cran.r-project.org/web/packages/pls/ e

LARS : http://cran.r-project.org/web/packages/lars/index.html

Se você deseja apenas explorar o relacionamento entre sua variável dependente e as variáveis independentes (por exemplo, você não precisa de testes de significância estatística), eu também recomendaria métodos de Aprendizado de Máquina como Florestas Aleatórias ou Árvores de Classificação / Regressão . As florestas aleatórias também podem aproximar relacionamentos não lineares complexos entre suas variáveis dependentes e independentes, o que pode não ter sido revelado por técnicas lineares (como Regressão linear ).

Um bom ponto de partida para o Machine Learning pode ser a exibição da tarefa Machine Learning no CRAN:

Visualização da tarefa de aprendizado de máquina : http://cran.r-project.org/web/views/MachineLearning.html

— Johannes
fonte

10

O pacote glmnet é uma implementação muito rápida do lasso bem

— David J. Harris

2

Eu alertaria que, dentro da comunidade de variáveis latentes, os PLSers formam um grupo muito isolado e nunca foram capazes de penetrar na literatura séria (com o que quero dizer, por exemplo, a teoria assintótica dos estimadores de mínimos quadrados nos trabalhos de Michael Browne, Peter Bentler, Albert Satorra e Alex Shapiro e modelagem de variáveis instrumentais de Ken Bollen, para citar os poucos mais importantes). Estranhamente, porém, o PLS parece ser um método aceitável nos círculos estatísticos, que geralmente mantêm um padrão de rigor mais alto do que a comunidade latente de modelagem de variáveis.

— StasK

6

Os Elementos de Aprendizagem Estatística têm uma comparação de diferentes métodos de seleção e encolhimento de variáveis: (OLS,) melhor subconjunto, cume, laço, PLS, PCR.

— Cbeleites

19

Outra opção que você pode considerar para seleção e regularização de variáveis é a rede elástica . É implementado em R através do pacote glmnet .

— Zach
fonte

16

A média do modelo é um caminho a percorrer (uma abordagem teórica da informação). O pacote R glmulti pode executar modelos lineares para cada combinação de variáveis preditivas e executar a média do modelo para esses resultados.

Consulte http://sites.google.com/site/mcgillbgsa/workshops/glmulti

Não se esqueça de investigar a colinearidade entre variáveis preditivas primeiro. Os fatores de inflação de variação (disponíveis no pacote R "car") são úteis aqui.

— OliP
fonte

Obrigado. Ele realmente se encaixa em todos os modelos possíveis? Mesmo sem interações, são cerca de um bilhão de modelos neste caso.

— Peter Ellis

AFAIK pode, mas há uma opção de algoritmo genético que diminui consideravelmente o tempo necessário para avaliar todos os modelos. Veja www.jstatsoft.org/v34/i12/paper

— OliP

3

Além disso MuMIn, AICcmodavgpackages, embora glmultiseja mais inteligente em relação a grandes conjuntos de modelos.

— Ben Bolker

8

@johannes deu uma excelente resposta. Se você é um usuário SAS, o LASSO está disponível através do PROC GLMSELECT e mínimos quadrados parciais através do PROC PLS.

David Cassell e eu fizemos uma apresentação sobre o LASSO (e a regressão menos angular) em alguns grupos de usuários do SAS. Está disponível aqui

— Peter Flom - Restabelece Monica
fonte

7

Discussão interessante. Rotular a regressão gradual como pecado estatístico é um pouco de uma afirmação religiosa - desde que se saiba o que eles estão fazendo e que os objetivos do exercício sejam claros, é definitivamente uma boa abordagem com seu próprio conjunto de suposições e, certamente, tendencioso e não garante a otimização, etc. No entanto, o mesmo pode ser dito de muitas outras coisas que fazemos. Não vi o CCA mencionado, que aborda o problema mais fundamental da estrutura de correlação no espaço covariável, garante a otimização, já existe há bastante tempo e apresenta uma curva de aprendizado. É implementado em uma variedade de plataformas, incluindo R.

— gillesc
fonte