A BIC tenta encontrar um modelo verdadeiro?

Esta pergunta é um acompanhamento ou tentativa de esclarecer uma possível confusão sobre um tópico que eu e muitos outros consideramos um pouco difícil, com relação à diferença entre AIC e BIC. Em uma resposta muito agradável de @Dave Kellen sobre este tópico ( /stats//a/767/30589 ), lemos:

Sua pergunta implica que a AIC e a BIC tentem responder à mesma pergunta, o que não é verdade. A AIC tenta selecionar o modelo que melhor descreve uma realidade desconhecida e de alta dimensão. Isso significa que a realidade nunca está no conjunto de modelos candidatos que estão sendo considerados. Pelo contrário, o BIC tenta encontrar o modelo TRUE entre o conjunto de candidatos. Acho bastante estranho a suposição de que a realidade é instanciada em um dos modelos que os pesquisadores construíram ao longo do caminho. Este é um problema real para a BIC.

Em um comentário abaixo, por @ gui11aume, lemos:

(-1) Ótima explicação, mas eu gostaria de contestar uma afirmação. @ Dave Kellen Você poderia, por favor, dar uma referência a onde está a idéia de que o modelo TRUE deve estar no cenário para a BIC? Eu gostaria de investigar isso, pois neste livro os autores dão uma prova convincente de que esse não é o caso. O que você precisa saber é o seguinte:

Parece que essa afirmação vem do próprio Schwarz (1978), embora a afirmação não fosse necessária: pelos mesmos autores (como @ gui11aume aponta para), lemos em seu artigo "Inferência multimodelo: entendendo AIC e BIC na seleção de modelos" ( Burnham e Anderson, 2004):

A derivação do BIC pressupõe a existência de um modelo verdadeiro ou, mais estritamente, o modelo verdadeiro é assumido como estando no conjunto de modelos ao usar o BIC? (A derivação de Schwarz especificou essas condições.) ... A resposta ... não. Ou seja, o BIC (como base para uma aproximação a uma determinada integral bayesiana) pode ser derivado sem assumir que o modelo subjacente à derivação seja verdadeiro (ver, por exemplo, Cavanaugh e Neath 1999; Burnham e Anderson 2002: 293-5). Certamente, ao aplicar o BIC, o conjunto de modelos não precisa conter o modelo verdadeiro (inexistente) que representa a realidade completa. Além disso, a convergência em probabilidade do modelo selecionado pelo BIC para um modelo targbet (sob a idealização de uma amostra de iid) não significa logicamente que esse modelo de destino deve ser a verdadeira distribuição geradora de dados.

Então, acho que vale a pena uma discussão ou algum esclarecimento (se for necessário mais) sobre esse assunto. No momento, tudo o que temos é um comentário de @ gui11aume (obrigado!) Sob uma resposta muito votada sobre a diferença entre AIC e BIC.

model-selection aic bic

— Erosennin
fonte

Para focar melhor a questão, talvez o AIC possa ser removido do título, pois, se eu entendi corretamente, essa pergunta é sobre se o modelo verdadeiro precisa estar no conjunto de candidatos ao usar o BIC.

— Juho Kokkala

@JuhoKokkala: Eu concordo.

— Erosennin

Para mim, a conclusão é que, na maioria das aplicações práticas, a BIC resulta em underfitting e a AIC avalia mais corretamente o desempenho provável do modelo em novos dados não disponíveis. Mas, se você usa o AIC ou o BIC, se estiver selecionando dentre, por exemplo, três modelos / conjuntos de recursos concorrentes, o modelo resultante poderá superajustar. AIC e BIC funcionam melhor quando o número de modelos em potencial é baixo ou os modelos são conectados por um pequeno número de parâmetros (por exemplo, penalidades).

— Frank Harrell

Obrigado @Erosennin por desenterrar a referência. Agora entendo de onde vem a idéia de que o modelo TRUE deve ser incluído.

— precisa saber é o seguinte

@FrankHarrell: Você poderia explicar o que você quer dizer com "aplicações práticas"? Se eu entendo Burnham e Anderson corretamente, parece que o BIC resultará em desajustamento quando os dados forem escassos. Quando tivermos muitos dados, o BIC escolherá / procurará um modelo quase verdadeiro mais complexo que o AIC. AIC e BIC têm diferentes "modelos de destino". Eu adoraria uma elaboração do que você está dizendo, apenas para me apontar para algum artigo / livro.

— Erosennin

O Critério de Informação de Schwarz (1978) foi elaborado com o recurso de escolher assintoticamente o modelo com maiores probabilidades posteriores, ou seja, o modelo com maior probabilidade, dados os dados em iguais anteriores. Então, aproximadamente onde denota "assintoticamente equivalente" é a parte posterior do modelo dados os dados . Não vejo como esse resultado dependeria da verdade do modelo 1 (existe mesmo um modelo verdadeiro em uma estrutura bayesiana?).

\frac{p (M_{1} | y)}{p (M_{2} | y)} > 1 \overset{UMA}{\sim} S Eu C (M_{1}) < S Eu C (M_{2})

$\frac{p(M_1|y)}{p(M_2|y)} > 1 \overset{A}{\sim} SIC(M_1) < SIC(M_2)$

\overset{A}{\sim}

$\overset{A}{\sim}$

p (M_{j} | y)

$p(M_j|y)$

j

$j$

y

$y$

O que eu acho que é responsável pela confusão é que o SIC tem outro recurso interessante que, sob certas condições, selecionará assintoticamente o modelo "verdadeiro" se o último estiver dentro do universo do modelo. Tanto AIC quanto SIC são casos especiais do critério que é a probabilidade do log das estimativas de parâmetros , é o número de parâmetros e é o tamanho da amostra. Quando o universo do modelo consiste em modelos gaussianos lineares, pode-se mostrar que precisamos:

Eu C (k) = - \frac{2}{T} eu (\hat{θ}; y) + k g (T)

$IC(k) = -\frac{2}{T} \mathcal{l}(\hat{\theta};y) + k g(T)$

l (\hat{θ}; y)

$\mathcal{l}(\hat{\theta};y)$

\hat{θ}

$\hat{\theta}$

k

$k$

T

$T$

g (T) \to 0 0 Como \infty

$g(T) \to 0 \; \text{as} \;\infty$ para o CI não selecionar um modelo menor que o modelo verdadeiro com probabilidade um e para o IC não selecionar um modelo que seja maior que o modelo verdadeiro com probabilidade um. Temos que Portanto, o SIC preenche ambas as condições, enquanto o AIC preenche a primeira condição, mas não a segunda. Para uma exposição muito acessível desses recursos e uma discussão de implicações práticas, consulte o Capítulo 6 deste livro .

T g (T) \to \infty Como \infty

$Tg(T) \to \infty \; \text{as} \;\infty$

g_{UMA Eu C} (T) = \frac{2}{T}, g_{S Eu C} (T) = \frac{em T}{T}

$g_{AIC}(T) = \frac{2}{T},\;\; g_{SIC}(T) = \frac{\ln{T}}{T}$

Elliott, G. e A. Timmermann (2016, abril). Previsão Econômica. Imprensa da Universidade de Princeton.

Schwarz, Gideon. "Estimando a dimensão de um modelo." The annals of statistics 6.2 (1978): 461-464.

— Matthias Schmidtblaicher
fonte