Pré-requisitos para comparação do modelo AIC

Quais são exatamente os pré-requisitos que precisam ser atendidos para que a comparação do modelo da AIC funcione?

Acabei de contornar esta questão quando fiz uma comparação como esta:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

Assim justifiquei a logtransformação da variável usili. Mas não sei se posso comparar modelos AIC quando, por exemplo, a variável dependente é diferente?

A resposta ideal incluiria a lista de pré-requisitos (suposições matemáticas).

— Curioso
fonte

Você não pode comparar os dois modelos, pois eles não modelam a mesma variável (como você se reconhece corretamente). No entanto, o AIC deve funcionar ao comparar modelos aninhados e não aninhados.

Apenas um lembrete antes de continuarmos: uma probabilidade gaussiana de log é dada por

registro (eu (θ)) = - \frac{| D |}{2} registro (2 π) - \frac{1 1}{2} registro (| K |) - \frac{1 1}{2} (x - μ)^{T} K^{- 1 1} (x - μ),

$\log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu),$

$K$ sendo a estrutura de covariância do seu modelo,o número de pontos em seus conjuntos de dados, a resposta média ex sua variável dependente. $|D|$ $\mu$ $x$

Mais especificamente, o AIC é calculado para ser igual a , onde é o número de efeitos fixos no seu modelo e sua função de probabilidade [1]. Praticamente compara o trade-off entre variação ( ) e desvio ( ) em suas suposições de modelagem. Como tal, no seu caso, ele compararia duas estruturas diferentes de probabilidade de log no que diz respeito ao termo de viés. Isso ocorre porque, quando você calcula sua probabilidade de log praticamente, você olha para dois termos: um termo adequado, denotado por e um termo de penalização da complexidade, denotado por $2k - 2 \log(L)$ $k$ $L$ $2k$ $2\log(L)$ $-\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu)$ $-\frac{1}{2} \log(|K|)$ . Portanto, você vê que seu termo de ajuste é completamente diferente entre os dois modelos; no primeiro caso, você compara os resíduos dos dados brutos e, no outro caso, os resíduos dos dados registrados.

Além da Wikipedia, a AIC também é definida para igualar: [3]; esse formulário torna ainda mais óbvio por que modelos diferentes com diferentes variáveis dependentes não são comparáveis. O RSS é o caso de dois é apenas incomparável entre os dois. $|D| \log\left(\frac{RSS}{|D|}\right) + 2k$

O artigo original de Akaike [4] é realmente muito difícil de entender (eu acho). Ele é baseado na divergência de KL (diferença entre duas distribuições, grosso modo) e trabalha para provar como você pode aproximar a verdadeira distribuição desconhecida de seus dados e compará-la com a distribuição de dados que seu modelo assume. É por isso que "menor pontuação na AIC é melhor" ; você está mais próximo da distribuição verdadeira aproximada de seus dados.

Então, para reunir tudo, as coisas óbvias a serem lembradas ao usar o AIC são três [2,5]:

Você não pode usá-lo para comparar modelos de diferentes conjuntos de dados.
Você deve usar as mesmas variáveis de resposta para todos os modelos candidatos.
Você deveria ter , porque, caso contrário, você não obtém boa consistência assintótica. $|D| >> k$

Desculpe dar as más notícias para você, mas usar o AIC para mostrar que você está escolhendo uma variável dependente em detrimento de outra não é uma coisa estatisticamente correta. Verifique a distribuição de seus resíduos nos dois modelos, se o caso de dados registrado normalmente distribuir resíduos e o caso de dados brutos não, você tem toda a justificativa de que precisa. Você também pode verificar se seus dados brutos correspondem a um lognormal, isso também pode ser uma justificativa suficiente.

Para suposições matemáticas estritas, o jogo é a divergência KL e a teoria da informação ...

Ah, e algumas referências:

http://en.wikipedia.org/wiki/Akaike_information_criterion
Critério de Informação de Akaike, Shuhua Hu, (Apresentação p.17-18)
Análise Estatística Multivariada Aplicada, Johnson & Wichern, 6ª Ed. (p. 386-387)
Um novo olhar sobre a identificação do modelo estatístico, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
Tutorial de Seleção de Modelo # 1: Critério de Informação de Akaike, D. Schmidt e E. Makalic, (Apresentação p.39)

— usεr11852 diz Reinstate Monic
fonte

obrigado! Eu não entendi a matemática, mas entendi o núcleo da mensagem. No entanto, você pode listar todos os pré-requisitos necessários para a comparação do modelo AIC? Só para ter certeza de que não vou cometer outro erro da próxima vez. Vou verificá-los um por um.

— Curioso

| D |

$|D|$

p

$p$

L (θ)

$L(\theta)$

θ

$\theta$

p (x | θ)

$p(x|\theta)$

— usεr11852 diz Reinstate Monic

obrigado por adicionar uma lista dessas três suposições à resposta! Era disso que eu precisava.

— Curioso

Analisando sua resposta novamente: seu ponto 1. "Você não pode usá-lo para comparar modelos de diferentes conjuntos de dados" . O que você quer dizer com "conjunto de dados"? E se eu alterar o conjunto de variáveis dependentes? Eu acho que nesse caso a AIC ainda deve ser comparável? Você pode atualizar sua resposta para esclarecer isso?

— Curioso

R S S

$RSS$

μ

$\mu$

x

$x$

uu0 $\prod_i y_i^{-1}$ $2\sum_i\log (y_i)$ uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)

— probabilityislogic
fonte

Não entendo o que você segue com sua tentativa de "corrigir" a AIC de alguma forma e o que você realmente conseguiu com ela (como interpretar seu resultado). De qualquer forma, não se meta nisso, não importa, porque minha pergunta era sobre algo completamente diferente: quais são os pré-requisitos gerais para a AIC (real, não corrigida) ser sensivelmente comparável. Não se concentre neste exemplo em particular, é apenas um exemplo da coisa geral.

— curioso

- 2 \log (p (y | θ))

$-2\log (p (y|\theta))$

x = g (y)

$x=g (y)$

x = l o g (y)

$x=log (y)$ AIC()

— probabilityislogic

@probabilityislogic: Você tem alguma referência acadêmica para a sua sugestão (AIC (uu0) + 2 * soma (log (usili)))) para que eu possa citá-las nos escritos acadêmicos? Obrigado.

— kuj

Este trecho de Akaike 1978 fornece uma citação no suporte da solução por @probabilityislogic.

Akaike, H. 1978. Sobre a probabilidade de um modelo de série temporal. Jornal da Sociedade Estatística Real. Série D (Estatístico) 27: 217-235.

— bjd
fonte

desculpe, eu não entendo, o que é "transformação de uma variável" e como isso está relacionado à minha pergunta. Por favor, explique, obrigado

— Curioso