O termo estatístico desvio é jogado um pouco demais. Na maioria das vezes, os programas retornam o desvio
D ( y) = - 2 log{ p ( y|θ^) } ,
Onde θ^ é o (s) parâmetro (s) estimado (s) do ajuste do modelo e y é alguma ocorrência potencialmente observada / observável da quantidade aleatória em questão.
O desvio mais comum a que você se refere trataria o desvio acima como uma função de duas variáveis, os dados e os parâmetros ajustados: D ( y,θ^) = - 2 log{ p ( y|θ^) }
e então se você tivesse um y valor, mas dois valores de parâmetros ajustados concorrentes, θ^1 e θ^2, então você obteria o desvio que você mencionou - 2 ( log{ p ( y|θ^1) } -log{ p ( y|θ^2) } ).
Você pode ler sobre a função Matlab que você mencionou glmfit()
, vinculada aqui . Uma discussão mais frutífera, embora mais curta, sobre o desvio está relacionada aqui .
A estatística de desvio implicitamente assume dois modelos: o primeiro é o seu modelo ajustado, retornado por glmfit()
, chame esse vetor de parâmetroθ^1. O segundo é o "modelo completo" (também chamado de "modelo saturado"), que é um modelo no qual existe uma variável livre para cada ponto de dados, chame esse vetor de parâmetroθ^s. Ter tantas variáveis livres é obviamente uma coisa estúpida, mas permite que você se ajuste exatamente a esses dados.
Portanto, a estatística de desvio é calculada como a diferença entre a probabilidade logarítmica calculada no modelo ajustado e no modelo saturado. DeixeiY= {y1,y2, ⋯ ,yN}seja a coleção dos N pontos de dados. Então:
D EV(θ^1, Y) = - 2 [ logp ( Y|θ^1) -logp ( Y|θ^s) ] .
Os termos acima serão expandidos em somas nos pontos de dados individuais yEupela suposição de independência. Se você deseja usar esse cálculo para calcular a probabilidade de log do modelo, primeiro será necessário calcular a probabilidade de log do modelo saturado. Aqui está um link que explica algumas idéias para calcular isso ... mas o problema é que, em qualquer caso, você precisará anotar uma função que calcule a probabilidade de log para seu tipo de dados e, nesse caso, provavelmente é apenas melhor criar sua própria função que calcula a probabilidade de log, em vez de retroceder em um cálculo de desvio.
Veja o Capítulo 6 da Análise de Dados Bayesiana para uma boa discussão sobre desvio.
Quanto ao seu segundo ponto sobre a estatística do teste de probabilidade, sim, parece que você basicamente sabe a coisa certa a fazer. Mas, em muitos casos, você considerará a hipótese nula como algo que o conhecimento externo especializado permite adivinhar com antecedência (como um coeficiente igual a zero). Não é necessariamente algo que resulta do ajuste do modelo.