Essa pergunta do homem das cavernas é popular, mas não houve resposta por meses até a minha controversa . Pode ser que a resposta real abaixo não seja, por si só, controversa, apenas que as perguntas sejam "carregadas", porque o campo parece (pelo menos para mim) ser preenchido por acólitos da AIC e da BIC que preferem usar OLS do que os métodos uns dos outros. Observe todas as suposições listadas e restrições impostas aos tipos de dados e métodos de análise e comente-as; conserte isso, contribua. Até agora, algumas pessoas muito inteligentes contribuíram, e está sendo feito um progresso lento. Reconheço contribuições de Richard Hardy e GeoMatt22, palavras amáveis de Antoni Parellada e tentativas valentes de Cagdas Ozgenc e Ben Ogorek de relacionar a divergência de KL com uma divergência real.
Antes de começarmos, vamos revisar o que é AIC, e uma fonte para isso é Pré - requisitos para comparação de modelos AIC e outra é de Rob J Hyndman . Especificamente, o AIC é calculado para ser igual a
2k−2log(L(θ)),
kL(θ)2k2log(L(θ))você escolhe usar. Por exemplo, para resolver a AIC para resíduos distribuídos pelo Student-t, poderíamos usar a solução de probabilidade máxima para Student-t . A probabilidade logarítmica normalmente aplicada à AIC é derivada da probabilidade logarítmica gaussiana e é dada por
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
K|D|μxK>>|D|>2K>|D|K>>|D|K|D|cveja o segundo parágrafo da resposta ao segundo trimestre abaixo. Essa proliferação de "medidas" apenas reforça a noção de que a AIC é um índice. No entanto, recomenda-se cautela ao usar a palavra "i", já que alguns advogados da AIC equiparam o uso da palavra "índice" com o mesmo carinho que pode ser atribuído a se referir à sua ontogenia como extraconjugal.
Q1: Mas uma pergunta é: por que devemos nos preocupar com essa troca específica de simplicidade de condicionamento físico?
Responda em duas partes. Primeiro a pergunta específica. Você deve se importar apenas porque foi assim que foi definido. Se você preferir, não há razão para não definir um CIC; como critério de informação do homem das cavernas, não será o AIC, mas o CIC produziria as mesmas respostas que o AIC, não afetando a troca entre qualidade de ajuste e postura de simplicidade. Qualquer constante que pudesse ter sido usada como multiplicador da AIC, inclusive uma vez, teria que ter sido escolhida e respeitada, pois não há um padrão de referência para impor uma escala absoluta. No entanto, a adesão a uma definição padrão não é arbitrária no sentido de que há espaço para uma e apenas uma definição, ou "convenção", para uma quantidade, como AIC, que é definida apenas em uma escala relativa. Veja também o pressuposto 3 da AIC, abaixo.
c
AICc=AIC+2k(k+1)n−k−1=2knn−k−1−2ln(L),
nc. Em geral, qualquer método de avaliação da adequação de um modelo terá suas vantagens e desvantagens. Meu conselho seria testar o desempenho de qualquer método de seleção de modelo para sua aplicação à metodologia de regressão de dados com mais vigor do que testar os próprios modelos. Alguma razão para duvidar? Sim, deve-se tomar cuidado ao construir ou selecionar qualquer teste de modelo para selecionar métodos metodologicamente adequados. AIC é útil para um subconjunto de avaliações de modelos, para isso, veja o terceiro trimestre, a seguir. Por exemplo, a extração de informações com o modelo A pode ser melhor executada com o método de regressão 1 e para o modelo B com o método de regressão 2, em que o modelo B e o método 2 às vezes produzem respostas não físicas e onde nenhum método de regressão é MLR,
Q3 Como isso se relaciona com a teoria da informação :
Suposição # 1 da MLR. A AIC é baseada nas premissas de aplicabilidade de máxima verossimilhança (MLR) a um problema de regressão. Há apenas uma circunstância em que a regressão ordinária de mínimos quadrados e a regressão de máxima probabilidade foram apontadas para mim como sendo a mesma. Isso seria quando os resíduos da regressão linear de mínimos quadrados ordinários (OLS) são normalmente distribuídos e a MLR tem uma função de perda gaussiana. Em outros casos de regressão linear OLS, para regressão OLS não linear e funções de perda não-Gaussiana, MLR e OLS podem diferir. Existem muitos outros alvos de regressão além de OLS ou MLR ou mesmo qualidade de ajuste e, frequentemente, uma boa resposta tem pouco a ver com, por exemplo, para a maioria dos problemas inversos. Existem tentativas altamente citadas (por exemplo, 1100 vezes) de usar o AIC generalizado para quase-probabilidade, para que a dependência da regressão de máxima probabilidade seja relaxada para admitir funções de perda mais gerais . Além disso, a MLR para Student's-t, embora não na forma fechada, é robusta e convergente . Como as distribuições residuais de Student-t são mais comuns e mais gerais do que as condições gaussianas, inclusive as inclusive, não vejo razão especial para usar a suposição gaussiana da AIC.
Suposição # 2 da MLR. MLR é uma tentativa de quantificar a qualidade do ajuste. Às vezes, é aplicado quando não é apropriado. Por exemplo, para dados de intervalo aparado, quando o modelo usado não é aparado. A qualidade do ajuste é ótima e boa se tivermos uma cobertura completa de informações. Em séries temporais, geralmente não temos informações rápidas o suficiente para entender completamente quais eventos físicos acontecem inicialmente ou que nossos modelos podem não estar completos o suficiente para examinar dados muito precoces. Ainda mais preocupante é que muitas vezes não é possível testar a qualidade do ajuste em momentos muito tardios, por falta de dados. Assim, a qualidade do ajuste pode apenas modelar 30% da área ajustada sob a curva e, nesse caso, estamos julgando um modelo extrapolado com base na localização dos dados e não estamos examinando o que isso significa. Para extrapolar, precisamos olhar não apenas para a qualidade do ajuste das 'quantias', mas também para os derivados dessas quantias que falham e que não temos "bondade" de extrapolação. Assim, técnicas de ajuste como splines B encontram uso porque podem prever com mais suavidade quais são os dados quando os derivados são adequados ou tratamentos alternativos inversos, por exemplo, tratamento integral incorreto em toda a gama de modelos, como Tikhonov adaptável à propagação de erros. regularização.
Outra preocupação complicada, os dados podem nos dizer o que devemos fazer com eles. O que precisamos para a adequação do ajuste (quando apropriado) é ter os resíduos que são distâncias no sentido de que um desvio padrão é uma distância. Ou seja, a qualidade do ajuste não faria muito sentido se um resíduo que fosse duas vezes mais longo que um único desvio padrão também não tivesse o comprimento de dois desvios padrão. A seleção das transformações de dados deve ser investigada antes da aplicação de qualquer método de seleção / regressão de modelo. Se os dados apresentarem erro de tipo proporcional, normalmente não é inapropriado usar o logaritmo antes de selecionar uma regressão, pois transforma desvios padrão em distâncias. Como alternativa, podemos alterar a norma a ser minimizada para acomodar dados proporcionais adequados. O mesmo se aplicaria à estrutura de erros de Poisson, podemos pegar a raiz quadrada dos dados para normalizar o erro ou alterar nossa norma de ajuste. Existem problemas que são muito mais complicados ou até intratáveis se não pudermos alterar a norma de ajuste, por exemplo, estatísticas de contagem de Poisson de decaimento nuclear quando o decaimento de radionuclídeos introduz uma associação exponencial baseada no tempo entre os dados da contagem e a massa real que teria emanava essas contagens se não houvesse decadência. Por quê? Se decairmos corretamente as taxas de contagem, não teremos mais estatísticas de Poisson, e os resíduos (ou erros) da raiz quadrada das contagens corrigidas não serão mais distâncias. Se, em seguida, quisermos realizar um teste de adequação dos dados corrigidos por decaimento (por exemplo, AIC), teríamos que fazê-lo de uma maneira desconhecida para o meu eu humilde. Pergunta aberta aos leitores, se insistirmos no uso da MLR, podemos alterar sua norma para dar conta do tipo de erro dos dados (desejável) ou devemos sempre transformá-los para permitir o uso da MLR (não tão útil)? Observe que o AIC não compara métodos de regressão para um único modelo, compara modelos diferentes para o mesmo método de regressão.
Premissa # 1 da AIC. Parece que a MLR não está restrita a resíduos normais, por exemplo, veja esta pergunta sobre MLR e Student's-t . Em seguida, vamos supor que a MLR seja apropriada para o nosso problema, para rastrearmos seu uso na comparação de valores da AIC em teoria. A seguir, assumimos que temos 1) informações completas, 2) o mesmo tipo de distribuição de resíduos (por exemplo, ambos normais, ambos Student- t ) para pelo menos 2 modelos. Ou seja, temos um acidente em que dois modelos agora devem ter o tipo de distribuição de resíduos. Isso poderia acontecer? Sim, provavelmente, mas certamente nem sempre.
Premissa 2 da AIC. AIC relaciona o logaritmo negativo da quantidade (número de parâmetros no modelo dividido pela divergência de Kullback-Leibler ). Essa suposição é necessária? No papel das funções gerais de perda, é usada uma "divergência" diferente. Isso nos leva a questionar se essa outra medida é mais geral que a divergência de KL, por que não a estamos usando também para a AIC?
As informações incompatíveis para a AIC da divergência de Kullback-Leibler são "Embora ... muitas vezes intuidas como uma maneira de medir a distância entre distribuições de probabilidade, a divergência de Kullback-Leibler não é uma métrica verdadeira". Veremos o porquê em breve.
O argumento KL chega ao ponto em que a diferença entre duas coisas que o modelo (P) e os dados (Q) são
DKL(P∥Q)=∫Xlog(dPdQ)dPdQdQ,
que reconhecemos como entropia de '' P '' em relação a '' Q ''.
AICdata,model1<AICdata,model2<. Como é arbitrário, definir a constante como um valor específico como uma questão de definição também não é inadequado.
Suposição # 4 da AIC. Isso significa que a AIC mede a entropia de Shannon ou as informações pessoais . "O que precisamos saber é" A entropia é o que precisamos para uma métrica de informações? "
Para entender o que é "auto-informação", cabe a normalizar as informações em um contexto físico, como qualquer um fará. Sim, quero que uma medida de informação tenha propriedades físicas. Então, como isso seria em um contexto mais geral?
ΔG=ΔH–TΔS) relaciona a mudança de energia à mudança na entalpia menos a temperatura absoluta vezes a variação na entropia. A temperatura é um exemplo de um tipo bem-sucedido de conteúdo normalizado de informações, porque se um tijolo quente e um frio forem colocados em contato um com o outro em um ambiente termicamente fechado, o calor fluirá entre eles. Agora, se pularmos nisso sem pensar muito, dizemos que o calor é a informação. Mas é a informação relativa que prediz o comportamento de um sistema. A informação flui até o equilíbrio ser alcançado, mas o equilíbrio de quê? Temperatura, é isso, não calor como na velocidade das partículas de certas massas de partículas, não estou falando de temperatura molecular, estou falando de temperatura bruta de dois tijolos que podem ter massas diferentes, feitos de materiais diferentes, com densidades diferentes etc., e nada disso eu preciso saber, tudo o que preciso saber é que a temperatura bruta é o que equilibra. Portanto, se um tijolo é mais quente, ele tem mais conteúdo de informação relativo e, quando mais frio, menos.
Agora, se me disseram que um tijolo tem mais entropia que o outro, e daí? Isso, por si só, não prevê se ganhará ou perderá entropia quando colocado em contato com outro tijolo. Então, somente a entropia é uma medida útil de informação? Sim, mas somente se estivermos comparando o mesmo bloco consigo mesmo, o termo "auto-informação".
Daí vem a última restrição: Para usar a divergência KL, todos os tijolos devem ser idênticos. Portanto, o que faz da AIC um índice atípico é que ele não é portátil entre conjuntos de dados (por exemplo, tijolos diferentes), o que não é uma propriedade especialmente desejável que possa ser tratada pela normalização do conteúdo das informações. A divergência de KL é linear? Talvez sim, talvez não. No entanto, isso não importa, não precisamos assumir linearidade para usar o AIC e, por exemplo, a entropia em si não acho que esteja linearmente relacionada à temperatura. Em outras palavras, não precisamos de uma métrica linear para usar cálculos de entropia.
Uma boa fonte de informação sobre a AIC está nesta tese . No lado pessimista, isso diz: "Em si, o valor da AIC para um determinado conjunto de dados não tem significado". No lado otimista, isso diz que os modelos que têm resultados próximos podem ser diferenciados suavizando para estabelecer intervalos de confiança e muito mais.