AIC ou valor-p: qual escolher para a seleção do modelo?

22

Sou novato nessa coisa de R, mas não tenho certeza de qual modelo selecionar.

Fiz uma regressão passo a passo, selecionando cada variável com base no AIC mais baixo. Eu vim com três modelos que não tenho certeza qual é o "melhor".
```
Model 1: Var1 (p=0.03) AIC=14.978
Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
```
Estou inclinado a usar o modelo nº 3 porque ele tem o AIC mais baixo (ouvi dizer que negativo é bom) e os valores de p ainda são bastante baixos.

Corri 8 variáveis como preditores de Hatchling Mass e descobri que essas três variáveis são os melhores preditores.

Meu próximo passo a passo, escolhi o Modelo 2 porque, embora o AIC fosse um pouco maior, os valores de p eram todos menores. Você concorda que isso é o melhor?

Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905

obrigado!

model-selection aic stepwise-regression

— MEL
fonte

Você poderia nos dizer a diferença entre (1) e (2)? Claramente algo mudou, porque o Modelo 3 em (1) e o Modelo 2 em (2) são nominalmente idênticos, mas os valores de p e AIC diferem.

— whuber

2

Esta pergunta foi reeditada duas vezes, o que significa que não apenas precisamos fechá-las, mas também as respostas associadas que já foram fornecidas a você. Você poderia registrar sua conta (consulte as Perguntas frequentes ) e prestar atenção à política de postagem do StackExchange no futuro? Obrigado.

— CHL

@ Whuber, eu tenho medo de não entender completamente sua pergunta. Provavelmente é minha falta de entendimento estatístico. Mas para tentar esclarecer. O Modelo 1 possui 4 variáveis, o Modelo 2 possui 3 variáveis e o Modelo 3 possui 2 variáveis. As variáveis estão na mesma ordem em todos os modelos (ou seja, variável um = temp em cada modelo). Acho que @GaBorgulya e @djma responderam minha pergunta perfeitamente. A variável 4 IS está correlacionada com a variável 3. AH-HA! Faz sentido. graças oodles!

— MEL

Eu converti sua resposta para o comentário acima. Se você acha que uma das respostas atuais o ajudou ou respondeu à sua pergunta, não se esqueça de aceitá-la, como gentilmente lembrado por @richiemorrisroe. BTW, é bom ver que você registrou sua conta.

— chl

23

AIC é uma medida de qualidade de ajuste que favorece menor erro residual no modelo, mas penaliza por incluir preditores adicionais e ajuda a evitar o ajuste excessivo. No seu segundo conjunto de modelos, o modelo 1 (aquele com o AIC mais baixo) pode ter melhor desempenho quando usado para previsão fora do seu conjunto de dados. Uma possível explicação para a adição de Var4 ao modelo 2 resulta em um AIC mais baixo, mas valores mais altos de p é que Var4 está um pouco correlacionado com Var1, 2 e 3. A interpretação do modelo 2 é, portanto, mais fácil.

— GaBorgulya
fonte

31

Olhar valores p individuais pode ser enganoso. Se você tiver variáveis colineares (com alta correlação), obterá grandes valores de p. Isso não significa que as variáveis são inúteis.

Como regra geral rápida, selecionar seu modelo com os critérios da AIC é melhor do que observar os valores-p.

Um motivo para não selecionar o modelo com o AIC mais baixo é quando a taxa de variável para ponto de dados é grande.

Observe que a seleção do modelo e a precisão da previsão são problemas um tanto distintos. Se seu objetivo é obter previsões precisas, sugiro a validação cruzada de seu modelo, separando seus dados em um conjunto de treinamento e teste.

Um artigo sobre seleção de variáveis: Conjuntos estocásticos stepwise para seleção de variáveis

— djma
fonte

4

Se seu objetivo é a precisão da previsão, você deseja usar o AIC (pois minimiza a divergência esperada de KL entre o modelo ajustado e a verdade). Se você deseja um procedimento consistente de seleção de modelo (fixo p, crescente n), pode usar, digamos, BIC. O uso de valores-p na regressão gradual para selecionar hipóteses é definitivamente não recomendado.

— emakalic

8

@emakalic - apenas uma observação rápida, de que a AIC e a BIC são basicamente formas de escolher qual valor de p usar, em vez de fazer algo "fundamentalmente" diferente. Para AIC, temos um valor p de e para BIC temos um valor p equivalente a .

0.154

$0.154$

| t | > \sqrt{\log (N)}

$|t|>\sqrt{\log(N)}$

— probabilityislogic

-3

AIC é motivado pela estimativa do erro de generalização (como CP de Mallow, BIC, ...). Se você deseja o modelo para previsões, use melhor um desses critérios. Se você deseja que seu modelo explique um fenômeno, use valores-p.

Além disso, veja aqui .

— JohnRos
fonte