Depois de ler "Explain or to Predict" (2010), de Galit Shmueli, fico intrigado com uma aparente contradição. Existem três premissas,
- Escolha do modelo com base no AIC versus no BIC (final da p. 300 - início da p. 301): basta colocar o AIC para selecionar um modelo destinado à previsão, enquanto o BIC deve ser usado para selecionar um modelo para explicação . Além disso (não no artigo acima), sabemos que, sob algumas condições, o BIC seleciona o verdadeiro modelo entre o conjunto de modelos candidatos; o verdadeiro modelo é o que buscamos na modelagem explicativa (final da p. 293).
- Aritmética simples: o AIC selecionará um modelo maior que o BIC para amostras de tamanho 8 ou maior (satisfazendo devido às diferentes penalidades de complexidade no AIC versus o BIC).
- O modelo "verdadeiro" (ou seja, o modelo com os regressores corretos e a forma funcional correta, mas com coeficientes imperfeitamente estimados) pode não ser o melhor modelo de previsão (p. 307): um modelo de regressão com um preditor ausente pode ser um melhor modelo de previsão - a introdução de viés devido ao preditor ausente pode ser superada pela redução da variância devido à imprecisão da estimativa.
Os pontos 1. e 2. sugerem que modelos maiores podem ser melhores para previsão do que modelos mais parcimoniosos. Enquanto isso, o ponto 3. dá um exemplo oposto, em que um modelo mais parcimonioso é melhor para previsão do que um modelo maior. Eu acho isso intrigante.
Questões:
- Como pode a aparente contradição entre os pontos {1. e 2.} e 3. ser explicados / resolvidos?
- À luz do ponto 3., você poderia dar uma explicação intuitiva sobre por que e como um modelo maior selecionado pela AIC é realmente melhor para previsão do que um modelo mais parcimonioso selecionado pela BIC?