Por critério de informação (não ajustado

9

Nos modelos de séries temporais, como ARMA-GARCH, para selecionar o atraso ou a ordem apropriada do modelo, são utilizados diferentes critérios de informação, como AIC, BIC, SIC, etc.

A minha pergunta é muito simples, porque donot usamos ajustado $R^2$ para escolher o modelo apropriado? Podemos selecionar modelo que levam à maior valor de ajustado $R^2$ . Como o ajustado $R^2$ e o critério de informação penalizam o número adicional de regressores no modelo, onde o anterior penaliza $R^2$ e posteriormente penaliza o valor da probabilidade.

— Neeraj
fonte

Posso estar faltando alguma coisa nas respostas (abaixo), mas os quadrados R e os quadrados R ajustados são apropriados para a classe relativamente limitada de modelos estimados de OLS, enquanto os AICs, BICs etc. são adequados para a classe mais ampla de lineares generalizados. modelos estimados, talvez, com ML ou uma variante.

— Mike Hunter

12

Eu diria que, pelo menos, quando se discute modelos lineares (como modelos AR), ajustado e AIC que não são diferentes. $R^2$

Considere a questão de saber se deve ser incluído em Isso equivale a comparar os modelos $X_2$

y = \underset{(n \times K_{1})}{X_{1}} β_{1} + \underset{(n \times K_{2})}{X_{2}} β_{2} + ϵ

$y=\underset{(n\times K_1)}{X_1}\beta_1+\underset{(n\times K_2)}{X_2}\beta_2+\epsilon$

onde

. Dizemos que

é omodelo verdadeirose

. Observe que

. Os modelos são assimaninhados. A selecção do modelo procedimento

\begin{array}{rcl} M_{1} & : & y = X_{1} β_{1} + u \\ M_{2} & : & y = X_{1} β_{1} + X_{2} β_{2} + u, \end{array}

$\begin{eqnarray*} \mathcal{M}_1&:&y=X_1\beta_1+u\\ \mathcal{M}_2&:&y=X_1\beta_1+X_2\beta_2+u, \end{eqnarray*}$

E (u | X_{1}, X_{2}) = 0

$E(u|X_1,X_2)=0$

M_{2}

$\mathcal{M}_2$

β_{2} \neq 0

$\beta_2\neq0$

M_{1} \subset M_{2}

$\mathcal{M}_1\subset\mathcal{M}_2$

\hat{M}

$\widehat{\mathcal{M}}$ é uma regra dependente de dados que seleciona o mais plausível de vários modelos.

$\widehat{\mathcal{M}}$

\begin{array}{rcl} lim_{n \to \infty} P (\hat{M} = M_{1} | M_{1}) & = & 1 \\ lim_{n \to \infty} P (\hat{M} = M_{2} | M_{2}) & = & 1 \end{array}

$\begin{eqnarray*} \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_1|\mathcal{M}_1\bigr)&=&1\\ \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_2|\mathcal{M}_2\bigr)&=&1 \end{eqnarray*}$

Considere ajustado . Ou seja, escolha se . Como diminui monotonicamente em , este procedimento é equivalente a minimizar . Por sua vez, isso é equivalente a minimizar . Para suficientemente grande , o último pode ser escrito como que $R^2$ $\mathcal{M}_1$ $\bar{R}^2_1>\bar{R}^2_2$ $\bar{R}^2$ $s^2$ $s^2$ $\log(s^2)$ $n$

\begin{array}{rcl} \log (s^{2}) & = & \log ({\hat{σ}}^{2} \frac{n}{n - K}) \\ = & \log ({\hat{σ}}^{2}) + \log (1 + \frac{K}{n - K}) \\ \approx & \log ({\hat{σ}}^{2}) + \frac{K}{n - K} \\ \approx & \log ({\hat{σ}}^{2}) + \frac{K}{n}, \end{array}

$\begin{eqnarray*} \log(s^2)&=&\log\left(\widehat{\sigma}^2\frac{n}{n-K}\right) \\ &=&\log(\widehat{\sigma}^2)+\log\left(1+\frac{K}{n-K}\right) \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n-K} \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n}, \end{eqnarray*}$

{\hat{σ}}^{2}

$\widehat{\sigma}^2$ é o estimador de ML da variação de erro. A seleção de modelos com base em é, portanto, assintoticamente equivalente à escolha do modelo com o menor . Este procedimento é inconsistente.

{\bar{R}}^{2}

$\bar{R}^2$

\log ({\hat{σ}}^{2}) + K / n

$\log(\widehat{\sigma}^2)+K/n$

Proposição :

lim_{n \to \infty} P ({\bar{R}}_{1}^{2} > {\bar{R}}_{2}^{2} | M_{1}) < 1

$\lim_{n\rightarrow\infty}P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)<1$

Prova : onde a penúltima linha segue porque a estatística é a estatística LR no caso de regressão linear que segue um assintótico distribuição nula. QED

\begin{array}{rcl} P ({\bar{R}}_{1}^{2} > {\bar{R}}_{2}^{2} | M_{1}) & \approx & P (\log (s_{1}^{2}) < \log (s_{2}^{2}) | M_{1}) \\ = & P (n \log (s_{1}^{2}) < n \log (s_{2}^{2}) | M_{1}) \\ \approx & P (n \log ({\hat{σ}}_{1}^{2}) + K_{1} < n \log ({\hat{σ}}_{2}^{2}) + K_{1} + K_{2} | M_{1}) \\ = & P (n [\log ({\hat{σ}}_{1}^{2}) - \log ({\hat{σ}}_{2}^{2})] < K_{2} | M_{1}) \\ \to & P (χ_{K_{2}}^{2} < K_{2}) \\ < & 1, \end{array}

$\begin{eqnarray*} P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)&\approx&P\bigl(\log(s^2_1)<\log(s^2_2)|\mathcal{M}_1\bigr) \\ &=&P\bigl(n\log(s^2_1)<n\log(s^2_2)|\mathcal{M}_1\bigr) \\ &\approx&P(n\log(\widehat{\sigma}^2_1)+K_1<n\log(\widehat{\sigma}^2_2)+K_1+K_2|\mathcal{M}_1) \\ &=&P(n[\log(\widehat{\sigma}^2_1)-\log(\widehat{\sigma}^2_2)]<K_2|\mathcal{M}_1) \\ &\rightarrow&P(\chi^2_{K_2}<K_2) \\ &<&1, \end{eqnarray*}$

χ_{K_{2}}^{2}

$\chi^2_{K_2}$

Agora considere o critério de Akaike, Assim, a AIC também negocia a redução do SSR implícita por regressores adicionais contra o "termo da penalidade , "que aponta na direção oposta. Portanto, escolha se , caso contrário, selecione .

A I C = \log ({\hat{σ}}^{2}) + 2 \frac{K}{n}

$AIC=\log(\widehat{\sigma}^2)+2\frac{K}{n}$

M_{1}

$\mathcal{M}_1$

A I C_{1} < A I C_{2}

$AIC_1<AIC_2$

M_{2}

$\mathcal{M}_2$

Pode-se observar que a também é inconsistente, continuando a prova acima na linha três com . O ajustado e o escolhem, assim, o modelo "grande" com probabilidade positiva, mesmo que seja o modelo verdadeiro. $AIC$ $P(n\log(\widehat{\sigma}^2_1)+2K_1<n\log(\widehat{\sigma}^2_2)+2(K_1+K_2)|\mathcal{M}_1)$ $R^2$ $AIC$ $\mathcal{M}_2$ $\mathcal{M}_1$

Como a penalidade pela complexidade no AIC é um pouco maior do que para o ajustado , pode ser menos propenso a selecionar demais. E tem outras propriedades interessantes (minimizando a divergência de KL com o modelo verdadeiro, se isso não estiver no conjunto de modelos considerado) que não são abordadas no meu post. $R^2$

— Christoph Hanck
fonte

11

Ótima resposta: não muito pesada, mas ainda exata! Se estivesse lá ontem, eu não teria postado o meu.

— Richard Hardy

E o caso do ARMA-GARCH? Como faria ao selecionar um dos termos MA e GARCH?

R_{a d j}^{2}

$R^2_{adj}$

— Zachary Blumenfeld

Eu não ousaria dizer. Como você explica, ainda não está claro o que R2 significa para o ajuste de um modelo desse tipo.

— Christoph Hanck

5

A penalidade em não produz as boas propriedades em termos de seleção de modelo, conforme posicionado pelo AIC ou BIC. A penalidade em é suficiente para tornar um estimador imparcial da população quando nenhum dos regressores realmente pertence ao modelo (conforme as postagens de blog de Dave Giles "In What Sense é o R-quadrado "ajustado" não tendencioso? " e " Mais informações sobre as propriedades do coeficiente de determinação "ajustado" ); no entanto, não é um seletor de modelo ideal. $R^2_{adj}$ $R^2_{adj}$ $R^2_{adj}$ $R^2$ $R^2_{adj}$

(Pode haver uma prova por contradição: se AIC é ideal em um sentido e BIC é ideal em outro, e não é equivalente a nenhum deles, então não é ótimo em nenhum desses dois sentidos.) $R^2_{adj}$ $R^2_{adj}$

— Richard Hardy
fonte

Quantos parâmetros GARCH devo adicionar antes que o aumente? :) .... Eu acredito que um argumento semelhante poderia ser feito para a suposição de erros correlatos (como em um modelo MA). Um modelo GLS não reduz a soma dos resíduos quadrados sobre os mínimos quadrados comuns. Em MA e GARCH, parâmetros (variáveis não explicativas, para as quais está ajustado) são adicionados ao modelo. Os parâmetros MA e GARCH não são adicionados para reduzir o , mas sim para aumentar a probabilidade e / ou diminuem uma soma ponderada de resíduos quadrados para refletir a falta de termos de erro de IDI.

R^{2}

$R^2$

R^{2} a d j

$R^2{adj}$

S S R

$SSR$

— Zachary Blumenfeld

Isso realmente aborda a postagem original ou a minha resposta? De qualquer forma, concordo com seus pontos.

— Richard Hardy

O que eu estava tentando ressaltar é que não pode realmente ser usado para selecionar componentes GARCH (e possivelmente componentes MA também), pois é baseado na fração de sobre que são estimadores tendenciosos de variação quando os termos do erro não são iid. (este é apenas um caso específico do viés de que você está falando). No caso do ARMA-GARCH, você nunca selecionaria um modelo com componentes GARCH, mesmo que houvesse volatilidade estocástica nos dados, porque não aumenta . Basicamente, estou de acordo com você, tentando dar exemplos específicos.

R_{a d j}^{2}

$R^2_{adj}$

S S T - S S R

$SST-SSR$

S S T

$SST$

R^{2}

$R^2$

— Zachary Blumenfeld