Eu diria que, pelo menos, quando se discute modelos lineares (como modelos AR), ajustado e AIC que não são diferentes.R2
Considere a questão de saber se deve ser incluído em
y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ
Isso equivale a comparar os modelos
M 1X2
y= X1 1( n × K1 1)β1 1+ X2( n × K2)β2+ ϵ
onde
E(u|X1,X2)=0. Dizemos que
M2é o
modelo verdadeirose
β2≠0. Observe que
M1⊂M2. Os modelos são assim
aninhados. A selecção do modelo procedimento
HM1 1M2::y= X1 1β1 1+ uy= X1 1β1 1+ X2β2+ L ,
E( u | X1 1, X2) = 0M2β2≠ 0M1 1⊂ M2Mˆ é uma regra dependente de dados que seleciona o mais plausível de vários modelos.
Mˆ
limn → ∞P( Mˆ= M1 1| M1 1)limn → ∞P( Mˆ= M2| M2)==1 11 1
Considere ajustado . Ou seja, escolha se . Como diminui monotonicamente em , este procedimento é equivalente a minimizar . Por sua vez, isso é equivalente a minimizar . Para suficientemente grande , o último pode ser escrito como
queR2M1 1R¯21 1> R¯22R¯2s2s2registro( s2)n
registro( s2)==≈≈registro( σˆ2nn - K)registro(σˆ2) + log( 1 + Kn - K)registro(σˆ2) +Kn - Kregistro( σˆ2) + Kn,
σˆ2é o estimador de ML da variação de erro. A seleção de modelos com base em é, portanto, assintoticamente equivalente à escolha do modelo com o menor
. Este procedimento é inconsistente.
R¯2registro( σˆ2) + K/ n
Proposição :
limn → ∞P( R¯21 1> R¯22| M1 1) <1
Prova :
onde a penúltima linha segue porque a estatística é a estatística LR no caso de regressão linear que segue um assintótico distribuição nula. QED
P( R¯21 1> R¯22| M1 1)≈=≈=→<P( log( s21 1) < log( s22) | M1 1)P( n log( s21 1) < n log( s22) | M1 1)P( n log( σˆ21 1) + K1 1< n log( σˆ22) + K1 1+ K2| M1 1)P( n [ log( σˆ21 1) - log( σˆ22) ] < K2| M1 1)P( χ2K2< K2)1 ,
χ2K2
Agora considere o critério de Akaike,
Assim, a AIC também negocia a redução do SSR implícita por regressores adicionais contra o "termo da penalidade , "que aponta na direção oposta. Portanto, escolha se
, caso contrário, selecione .
UMAIC= log( σˆ2) + 2 Kn
M1 1A IC1 1< A IC2M2
Pode-se observar que a também é inconsistente, continuando a prova acima na linha três com . O ajustado e o escolhem, assim, o modelo "grande" com probabilidade positiva, mesmo que seja o modelo verdadeiro.UMAICP( n log( σˆ21 1) + 2 K1 1< n log( σˆ22) + 2 ( K1 1+ K2) | M1 1)R2A ICM2M1 1
Como a penalidade pela complexidade no AIC é um pouco maior do que para o ajustado , pode ser menos propenso a selecionar demais. E tem outras propriedades interessantes (minimizando a divergência de KL com o modelo verdadeiro, se isso não estiver no conjunto de modelos considerado) que não são abordadas no meu post.R2