Paradoxo na seleção de modelos (AIC, BIC, para explicar ou prever?)

Depois de ler "Explain or to Predict" (2010), de Galit Shmueli, fico intrigado com uma aparente contradição. Existem três premissas,

Escolha do modelo com base no AIC versus no BIC (final da p. 300 - início da p. 301): basta colocar o AIC para selecionar um modelo destinado à previsão, enquanto o BIC deve ser usado para selecionar um modelo para explicação . Além disso (não no artigo acima), sabemos que, sob algumas condições, o BIC seleciona o verdadeiro modelo entre o conjunto de modelos candidatos; o verdadeiro modelo é o que buscamos na modelagem explicativa (final da p. 293).
Aritmética simples: o AIC selecionará um modelo maior que o BIC para amostras de tamanho 8 ou maior (satisfazendo devido às diferentes penalidades de complexidade no AIC versus o BIC). $\text{ln}(n)>2$
O modelo "verdadeiro" (ou seja, o modelo com os regressores corretos e a forma funcional correta, mas com coeficientes imperfeitamente estimados) pode não ser o melhor modelo de previsão (p. 307): um modelo de regressão com um preditor ausente pode ser um melhor modelo de previsão - a introdução de viés devido ao preditor ausente pode ser superada pela redução da variância devido à imprecisão da estimativa.

Os pontos 1. e 2. sugerem que modelos maiores podem ser melhores para previsão do que modelos mais parcimoniosos. Enquanto isso, o ponto 3. dá um exemplo oposto, em que um modelo mais parcimonioso é melhor para previsão do que um modelo maior. Eu acho isso intrigante.

Questões:

Como pode a aparente contradição entre os pontos {1. e 2.} e 3. ser explicados / resolvidos?
À luz do ponto 3., você poderia dar uma explicação intuitiva sobre por que e como um modelo maior selecionado pela AIC é realmente melhor para previsão do que um modelo mais parcimonioso selecionado pela BIC?

— Richard Hardy
fonte

Eu não entendo o paradoxo / contradição. O AIC é eficiente (minimiza assintoticamente o erro de previsão esperado) e o BIC é consistente (seleciona assintoticamente a ordem verdadeira). O ponto 3) diz que o viés pode ser superado pela variação. Obviamente, não há garantia de que um seja melhor que o outro em uma determinada amostra. Portanto, seu "paradoxo" parece ser que, para uma determinada amostra, o AIC pode não ser o melhor para a previsão, o que não surpreende. Para o seu Q2: se o aumento do viés induzido pelo modelo menor do BIC for maior que o aumento da variação no maior do AIC, o AIC será melhor.

— hejseb

Eu sugiro que você analise os primeiros capítulos em "Seleção de modelo e média de modelos" de Nils Hjort e Gerda Claeskens, talvez isso esclareça as coisas.

— hejseb

Eles não devem ser tomados no mesmo contexto; os pontos 1 e 2 têm contextos diferentes. Tanto para o AIC quanto para o BIC, primeiro se explora qual combinação de parâmetros em que número produz os melhores índices (alguns autores têm ajustes epiléticos quando eu uso o índice de palavrasneste contexto. Ignore-os ou procure o índice no dicionário.) No ponto 2, AIC é o modelo mais rico, em que mais rico significa selecionar modelos com mais parâmetros, apenas algumas vezes, porque frequentemente o modelo AIC ideal é o mesmo número de parâmetros que o BIC. seleção. Ou seja, se o AIC e o BIC selecionam modelos com o mesmo número de parâmetros, a alegação é de que o AIC será melhor para previsão do que o BIC. No entanto, o oposto pode ocorrer se o BIC atingir o limite máximo com um modelo de menos parâmetros selecionado (mas sem garantias). Sober (2002) concluiu que o AIC mede a precisão preditiva, enquanto o BIC mede a qualidade do ajuste, onde a precisão preditiva pode significar prever y fora da faixa de valores extremos de x. Quando estiver fora, frequentemente, um AIC menos ideal, com queda de parâmetros preditivos fracos, melhor prediz valores extrapolados do que um índice ideal de mais parâmetros no modelo selecionado. Observo de passagem que AIC e ML não evitam a necessidade de teste de erro de extrapolação, que é um teste separado para modelos. Isso pode ser feito retendo valores extremos do conjunto "treinamento" e calculando o erro entre o modelo extrapolado "pós-treinamento" e os dados retidos.

Agora, o BIC é supostamente um menor preditor de erro dos valores y dentro dos valores extremos do intervalo de x . A qualidade aprimorada do ajuste geralmente tem o preço do viés da regressão (para extrapolação), em que o erro é reduzido pela introdução desse viés. Isso, por exemplo, geralmente achatará a inclinação para dividir o sinal da média esquerda versos à direita $f(x)-y$ resíduos (pense em mais resíduos negativos de um lado e mais positivos no outro), reduzindo assim o erro total. Portanto, neste caso, estamos solicitando o melhor valor de y, dado um valor x, e para o AIC, solicitamos mais de perto uma melhor relação funcional entre x e y. Uma diferença entre elas é, por exemplo, que o BIC, com outras opções de parâmetros iguais, terá um melhor coeficiente de correlação entre o modelo e os dados, e o AIC terá um erro de extrapolação melhor medido como erro de valor y para um determinado valor x extrapolado.

O ponto 3 é uma declaração algumas vezes sob algumas condições

quando os dados são muito barulhentos ( grande ); $σ$
quando os valores absolutos verdadeiros dos parâmetros deixados de fora (no nosso
exemplo ) são pequenos; $β_2$
quando os preditores estão altamente correlacionados; e
quando o tamanho da amostra é pequeno ou o intervalo de variáveis deixadas de fora é pequeno.

Na prática, uma forma correta de uma equação não significa que a adaptação a ela produzirá os valores corretos dos parâmetros por causa do ruído, e quanto mais ruído, melhor. O mesmo acontece com R versus R ajustado e com alta colinearidade. Ou seja, algumas vezes, quando um parâmetro é adicionado, o R ajustado é degradado enquanto o R melhora. $^2$ $^2$ $^2$ $^2$

Gostaria de salientar que essas afirmações são otimistas. Normalmente, os modelos estão errados e, geralmente, um modelo melhor reforça uma norma que não pode ser usada com o AIC ou o BIC, ou a estrutura residual incorreta é assumida para sua aplicação e são necessárias medidas alternativas. No meu trabalho, este é sempre o caso.

— Carl
fonte

Não sei se você está respondendo às perguntas. Estou ciente das limitações gerais dos critérios de informação, mas não é sobre isso que estou perguntando. Além disso, não entendo o seu ponto de vista, se a AIC e a BIC tiverem o mesmo número de parâmetros, então a alegação é de que a AIC será melhor para previsão do que a BIC . Quando modelos alternativos têm o mesmo número de parâmetros, a comparação da AIC e da BIC se resume à comparação de probabilidades, e a AIC e a BIC selecionam a mesma alternativa. Você poderia também elaborar o que você quer dizer com um modelo melhor, aplicará uma norma que não pode ser usada com o AIC ou o BIC ?

— Richard Hardy

Continuação: Enquanto tivermos a probabilidade e os graus de liberdade, podemos calcular o AIC e o BIC.

— Richard Hardy

@RichardHardy True: Desde que tenhamos a probabilidade e os graus de liberdade, podemos calcular o AIC e o BIC. No entanto, o cálculo será subótimo e enganoso se os resíduos forem do Student-T e não tivermos utilizado o AIC e o BIC para o Student-T. Ao contrário do Student's-T, existem distribuições de resíduos para os quais o ML pode não ser publicado, por exemplo Gamma, Beta etc.

— Carl

Obrigado pelo esclarecimento! Eu acredito que deveria existir uma resposta para as perguntas acima que é bastante simples e geral. Mais especificamente, não acho que seja necessário envolver casos "feios" e falhas da AIC e da BIC. Pelo contrário, acho que deveria haver um caso bastante básico que pudesse ilustrar por que o paradoxo é apenas aparente e não real. Ao mesmo tempo, seu segundo parágrafo parece ir na direção oposta. Não que isso não fosse valioso por si só, mas receio que possa nos distrair das reais questões subjacentes aqui.

— Richard Hardy

@ Richardhardard Muitas vezes a questão prática é intratável para a AIC. Por exemplo, comparação de modelos iguais ou diferentes com normas diferentes e / ou transformações de dados ou análise de normas complicadas, por exemplo, redução de erros na regularização de Tikhonov de um parâmetro derivado, inversões gerais etc. Isso precisa ser mencionado também, para que ninguém use o AIC , BIC incorretamente.

— Carl