Eles não devem ser tomados no mesmo contexto; os pontos 1 e 2 têm contextos diferentes. Tanto para o AIC quanto para o BIC, primeiro se explora qual combinação de parâmetros em que número produz os melhores índices (alguns autores têm ajustes epiléticos quando eu uso o índice de palavrasneste contexto. Ignore-os ou procure o índice no dicionário.) No ponto 2, AIC é o modelo mais rico, em que mais rico significa selecionar modelos com mais parâmetros, apenas algumas vezes, porque frequentemente o modelo AIC ideal é o mesmo número de parâmetros que o BIC. seleção. Ou seja, se o AIC e o BIC selecionam modelos com o mesmo número de parâmetros, a alegação é de que o AIC será melhor para previsão do que o BIC. No entanto, o oposto pode ocorrer se o BIC atingir o limite máximo com um modelo de menos parâmetros selecionado (mas sem garantias). Sober (2002) concluiu que o AIC mede a precisão preditiva, enquanto o BIC mede a qualidade do ajuste, onde a precisão preditiva pode significar prever y fora da faixa de valores extremos de x. Quando estiver fora, frequentemente, um AIC menos ideal, com queda de parâmetros preditivos fracos, melhor prediz valores extrapolados do que um índice ideal de mais parâmetros no modelo selecionado. Observo de passagem que AIC e ML não evitam a necessidade de teste de erro de extrapolação, que é um teste separado para modelos. Isso pode ser feito retendo valores extremos do conjunto "treinamento" e calculando o erro entre o modelo extrapolado "pós-treinamento" e os dados retidos.
Agora, o BIC é supostamente um menor preditor de erro dos valores y dentro dos valores extremos do intervalo de x . A qualidade aprimorada do ajuste geralmente tem o preço do viés da regressão (para extrapolação), em que o erro é reduzido pela introdução desse viés. Isso, por exemplo, geralmente achatará a inclinação para dividir o sinal da média esquerda versos à direitaf( x ) - yresíduos (pense em mais resíduos negativos de um lado e mais positivos no outro), reduzindo assim o erro total. Portanto, neste caso, estamos solicitando o melhor valor de y, dado um valor x, e para o AIC, solicitamos mais de perto uma melhor relação funcional entre x e y. Uma diferença entre elas é, por exemplo, que o BIC, com outras opções de parâmetros iguais, terá um melhor coeficiente de correlação entre o modelo e os dados, e o AIC terá um erro de extrapolação melhor medido como erro de valor y para um determinado valor x extrapolado.
O ponto 3 é uma declaração algumas vezes sob algumas condições
quando os dados são muito barulhentos ( grande );σ
quando os valores absolutos verdadeiros dos parâmetros deixados de fora (no nosso
exemplo ) são pequenos;β2
quando os preditores estão altamente correlacionados; e
quando o tamanho da amostra é pequeno ou o intervalo de variáveis deixadas de fora é pequeno.
Na prática, uma forma correta de uma equação não significa que a adaptação a ela produzirá os valores corretos dos parâmetros por causa do ruído, e quanto mais ruído, melhor. O mesmo acontece com R versus R ajustado e com alta colinearidade. Ou seja, algumas vezes, quando um parâmetro é adicionado, o R ajustado é degradado enquanto o R melhora. 2 2 22222
Gostaria de salientar que essas afirmações são otimistas. Normalmente, os modelos estão errados e, geralmente, um modelo melhor reforça uma norma que não pode ser usada com o AIC ou o BIC, ou a estrutura residual incorreta é assumida para sua aplicação e são necessárias medidas alternativas. No meu trabalho, este é sempre o caso.