É possível que o AIC e o BIC ofereçam seleções de modelos totalmente diferentes?

Estou executando um modelo de regressão de Poisson com 1 variável de resposta e 6 covariáveis. A seleção de modelos usando o AIC resulta em um modelo com todas as covariáveis e 6 termos de interação. O BIC, no entanto, resulta em um modelo com apenas 2 covariáveis e sem termos de interação. É possível que os dois critérios, que parecem muito semelhantes, produzam seleções de modelo totalmente diferentes?

— WBM
fonte

Se não fosse possível obter recomendações de modelo diferentes a partir das duas métricas, não haveria duas métricas, sempre usaríamos uma.

— Gregor Thomas

A palavra "totalmente diferente" é difícil de interpretar quando os modelos são o resultado da escolha de um conjunto de parâmetros discretos.

— precisa

Respostas:

É possível mesmo. Conforme explicado em https://methodology.psu.edu/AIC-vs-BIC , "o BIC penaliza mais fortemente a complexidade do modelo. A única maneira de discordar é quando o AIC escolhe um modelo maior que o BIC".

Se seu objetivo é identificar um bom modelo preditivo, você deve usar o AIC. Se seu objetivo é identificar um bom modelo explicativo, você deve usar o BIC. Rob Hyndman resume bem esta recomendação em
https://robjhyndman.com/hyndsight/to-explain-or-predict/ :

"O AIC é mais adequado para modelar a seleção para previsão, pois é assintoticamente equivalente à validação cruzada de exclusão única na regressão ou validação cruzada de etapa única em séries temporais. Por outro lado, pode-se argumentar que o BIC é mais adequado para modelar a seleção para explicação, pois é consistente ".

A recomendação vem do artigo de Galit Shmueli “Explicar ou prever?”, Statistical Science, 25 (3), 289-310 ( https://projecteuclid.org/euclid.ss/1294167961 ).

Termo aditivo:

Existe um terceiro tipo de modelagem - modelagem descritiva -, mas não conheço nenhuma referência sobre qual da AIC ou da BIC é mais adequada para identificar um modelo descritivo ideal. Espero que outras pessoas aqui possam concordar com suas idéias.

— Isabella Ghement
fonte

\ln n < 2

$\ln n < 2$

n \leq 7

$n \le 7$

Bom ponto! Com um tamanho de amostra igual ou inferior a 7, imagino que a seleção de modelos esteja fora de questão. Is

— Isabella Ghement

— Subhash C. Davar

@ subhashc.davar: Sem resposta ainda - estou tentada a enviar um email para Galit Shmueli e perguntar a ela por seus pensamentos sobre isso.

— Isabella Ghement

Se entendemos o significado de "descritivo" e o levamos a sério, não sei se faz sentido falar sobre a identificação do modelo descritivo ideal.

— gung - Restabelece Monica

Resposta curta: sim, é muito possível. Os dois aplicam penalidades diferentes com base no número de parâmetros estimados (2k para AIC vs ln (n) xk para BIC, onde k é o número de parâmetros estimados e n é o tamanho da amostra). Assim, se o ganho de probabilidade de adicionar um parâmetro for pequeno, o BIC poderá selecionar modelos diferentes para o AIC. Esse efeito depende do tamanho da amostra, no entanto.

— NatWH
fonte

Seria bom tornar explícito que n é o tamanho da amostra na equação acima

— fabiob