Em um GLM, a probabilidade logarítmica do modelo saturado é sempre zero?

Como parte da saída de um modelo linear generalizado, os desvios nulo e residual são usados para avaliar o modelo. Muitas vezes, vejo as fórmulas para essas quantidades expressas em termos da probabilidade logarítmica do modelo saturado, por exemplo: /stats//a/113022/22199 , Regressão logística: como obter um modelo saturado

O modelo saturado, até onde eu entendo, é o modelo que se encaixa perfeitamente na resposta observada. Assim, na maioria dos lugares que vi, a probabilidade logarítmica do modelo saturado é sempre dada como zero.

No entanto, a maneira como a fórmula do desvio é apresentada sugere que, às vezes, essa quantidade é diferente de zero. (Como se fosse zero sempre, por que se preocupar em incluí-lo?)

Em que casos pode ser diferente de zero? Se nunca é diferente de zero, por que incluí-lo na fórmula do desvio?

— Alex
fonte

Respostas:

Se você realmente quis dizer probabilidade de log , a resposta é: nem sempre é zero.

Por exemplo, considere os dados de Poisson: $y_i \sim \text{Poisson}(\mu_i), i = 1, \ldots, n$ . A probabilidade logarítmica para $Y = (y_1, \ldots, y_n)$ é dada por:

\begin{matrix} (*) & ℓ (μ; Y) = - \sum_{Eu = 1}^{n} μ_{Eu} + \sum_{Eu = 1}^{n} y_{Eu} registro μ_{Eu} - \sum_{Eu = 1}^{n} registro (y_{Eu}!) . \end{matrix}

$\ell(\mu; Y) = -\sum_{i = 1}^n \mu_i + \sum_{i = 1}^n y_i \log \mu_i - \sum_{i = 1}^n \log(y_i!). \tag{$*$}$

Diferenciar $\ell(\mu; Y)$ em $(*)$ em relação a $\mu_i$ e configurá-lo para $0$ (isto é como obtemos a MLE para o modelo saturado):

- 1 + \frac{y_{Eu}}{μ_{Eu}} = 0

$-1 + \frac{y_i}{\mu_i} = 0.$ Resolver este para

μ_{i}

$\mu_i$ para obter

, substituindo

de volta em

para

dá que o log-probabilidade do modelo saturado é:

{\hat{μ}}_{i} = y_{i}

$\hat{\mu}_i = y_i$

{\hat{μ}}_{i}

$\hat{\mu}_i$

(*)

$(*)$

μ_{i}

$\mu_i$

ℓ (\hat{μ}; Y) = \sum_{Eu = 1}^{n} y_{Eu} (registro y_{Eu} - 1) - \sum_{Eu = 1}^{n} registro (y_{Eu}!) \neq 0 0

$\ell(\hat{\mu}; Y) = \sum_{i = 1}^n y_i(\log y_i - 1) -\sum_{i = 1}^n \log(y_i!) \neq 0$ , a menos que

y_{i}

$y_i$ assumir valores muito especiais.

Na página de ajuda da Rfunção glm, no item deviance, o documento explica esse problema da seguinte maneira:

deviance até uma constante, menos o dobro da probabilidade maximizada de log. Onde sensata, a constante é escolhida para que um modelo saturado tenha desvio zero.

Observe que ele mencionou que o desvio , em vez da probabilidade logarítmica do modelo saturado, é escolhido como zero.

Provavelmente, o que você realmente queria confirmar é que "o desvio do modelo saturado é sempre dado como zero", o que é verdadeiro, desde o desvio, por definição (consulte a Seção 4.5.1 da Análise de dados categóricos (2a edição) por Alan Agresti) é a estatística da razão de verossimilhança de um GLM especificado para o modelo saturado. O constantmencionado na documentação R é na verdade o dobro da probabilidade logarítmica maximizada do modelo saturado.

Com relação à sua afirmação "No entanto, a maneira como a fórmula do desvio é apresentada sugere que às vezes essa quantidade é diferente de zero.", Provavelmente se deve ao abuso do uso do termo desvio . Por exemplo, em R, a estatística da razão de verossimilhança da comparação de dois modelos arbitrários (aninhados) e também é chamada de desvio, que seria mais precisamente denominado como a diferença entre o desvio de e o desvio de , se seguimos de perto a definição apresentada no livro de Agresti. $M_1$ $M_2$ $M_1$ $M_2$

Conclusão

A probabilidade logarítmica do modelo saturado é geralmente diferente de zero.
O desvio (em sua definição original) do modelo saturado é zero.
A saída de desvio de softwares (como R) geralmente não é zero, pois na verdade significa outra coisa (a diferença entre desvios).

A seguir, são apresentadas a derivação para o caso geral da família exponencial e outro exemplo concreto. Suponha que os dados venham da família exponencial (consulte Estatística Moderna Aplicada com S , Capítulo ): $7$

\begin{matrix} (1) & f (y_{i}; θ_{i}, φ) = \exp [A_{i} (y_{i} θ_{i} - γ (θ_{i})) / φ + τ (y_{i}, φ / A_{i})] . \end{matrix}

$f(y_i; \theta_i, \varphi) = \exp[A_i(y_i\theta_i - \gamma(\theta_i))/\varphi + \tau(y_i, \varphi/A_i)]. \tag{1}$ onde

são pesos anteriores conhecidos e

são parâmetros de dispersão / escala (para muitos casos, como binomial e Poisson, esse parâmetro é conhecido, enquanto para outros casos, como normal e Gamma, esse parâmetro é desconhecido). A probabilidade logarítmica é dada por:

A_{i}

$A_i$

φ

$\varphi$

Como no exemplo de Poisson, os parâmetros do modelo saturado podem ser estimados resolvendo a seguintefunção depontuação:

ℓ (θ, φ; Y) = \sum_{i = 1}^{n} A_{i} (y_{i} θ_{i} - γ (θ_{i})) / φ + \sum_{i = 1}^{n} τ (y_{i}, φ / A_{i}) .

$\ell(\theta, \varphi; Y) = \sum_{i = 1}^n A_i(y_i \theta_i - \gamma(\theta_i))/\varphi + \sum_{i = 1}^n \tau(y_i, \varphi/A_i).$

0 = U (θ_{i}) = \frac{\partial ℓ (θ, φ; Y)}{\partial θ_{i}} = \frac{A_{i} (y_{i} - γ^{'} (θ_{i}))}{φ}

$0 = U(\theta_i) = \frac{\partial \ell(\theta, \varphi; Y)}{\partial \theta_i} = \frac{A_i(y_i - \gamma'(\theta_i))}{\varphi}$

$\hat{\theta}_i$

\begin{matrix} (* *) & ℓ (\hat{θ}, φ; Y) = \sum_{i = 1}^{n} A_{i} (y_{i} {\hat{θ}}_{i} - γ ({\hat{θ}}_{i})) / φ + \sum_{i = 1}^{n} τ (y_{i}, φ / A_{i}) . \end{matrix}

$\ell(\hat{\theta}, \varphi; Y) = \sum_{i = 1}^n A_i(y_i \hat{\theta}_i - \gamma(\hat{\theta}_i))/\varphi + \sum_{i = 1}^n \tau(y_i, \varphi/A_i). \tag{$**$}$

$(**)$ $\Gamma(\alpha, \beta)$

f (y; α, β) = \frac{β^{α}}{Γ (α)} e^{- β y} y^{α - 1}, y > 0 0, α > 0 0, β > 0 0,

$f(y; \alpha, \beta) = \frac{\beta^\alpha}{\Gamma(\alpha)}e^{-\beta y}y^{\alpha - 1}, \quad y > 0, \alpha > 0, \beta > 0,$

f

$f$

(1)

$(1)$

φ = \frac{1}{α}, θ = - \frac{β}{α},

$\varphi = \frac{1}{\alpha},\, \theta = -\frac{\beta}{\alpha},$

f

$f$

f (y; θ, φ) = \exp [\frac{θ y - (- registro (- θ))}{φ} + τ (y, φ)],

$f(y; \theta, \varphi) = \exp\left[\frac{\theta y - (-\log(-\theta))}{\varphi}+ \tau(y, \varphi)\right],$

τ (y, φ) = - \frac{registro φ}{φ} + (\frac{1}{φ} - 1) registro y - registro Γ (φ^{- 1}) .

$\tau(y, \varphi) = -\frac{\log \varphi}{\varphi} + \left(\frac{1}{\varphi} - 1\right)\log y - \log\Gamma(\varphi^{-1}).$

{\hat{θ}}_{i} = - \frac{1}{y_{i}}

$\hat{\theta}_i = -\frac{1}{y_i}$

\sum_{Eu = 1}^{n} \frac{1}{φ} [{\hat{θ}}_{Eu} y_{Eu} - (- registro (- {\hat{θ}}_{Eu}))] = \sum_{Eu = 1}^{n} \frac{1}{φ} [- 1 - registro (y_{Eu})] \neq 0 0,

$\sum_{i = 1}^n \frac{1}{\varphi}[\hat{\theta}_iy_i - (-\log(-\hat{\theta}_i))] = \sum_{i = 1}^n \frac{1}{\varphi}[-1 - \log(y_i)] \neq 0,$

y_{i}

$y_i$

— Zhanxiong
fonte

A probabilidade de log é zero se e somente se o modelo puder atribuir 100% de probabilidade a cada um dos resultados possíveis?

— Alex

Não entendo bem o que você quis dizer. Mas da minha derivação você pode concluir que é

0

$0$ se e somente se o

τ

$\tau$ é idêntico

0

$0$ e não há parâmetro de dispersão.

— Zhanxiong 3/15/15

Sua derivação é muito boa, mas a prova formal está um pouco acima da minha cabeça no momento. Obrigado pelo seu exemplo com o modelo de Poisson. O que tirei deste exemplo é que o modelo de Poisson não pode atribuir 100% de probabilidade ao resultado observado, dado qualquer valor para a média de Poisson, portanto, a probabilidade não pode ser zero.

— Alex

A instrução "modelo atribuir

100 %

$100\%$ probabilidade do resultado observado "me parece estranho. Você quer dizer que, dadas as observações

y_{1}, \dots, y_{n}

$y_1, \ldots, y_n$ , e se

Y

$Y$ é uma variável aleatória de Poisson,

P (Y = y_{1}) + P (Y = y_{2}) + \dots + P (Y = y_{n}) < 1

$P(Y= y_1) + P(Y = y_2) + \cdots + P(Y = y_n) < 1$ ?

— Zhanxiong

O que eu quis dizer é que se

Y

$Y$ foi uma variável aleatória de Poisson, então

P (Y = y_{i}) < 1

$P(Y = y_i) < 1$ para qualquer

i

$i$ ou Poisson significa, portanto, é impossível encontrar qualquer parâmetro de modelo que dê uma probabilidade logarítmica de zero para o observado. Talvez eu esteja completamente entendendo mal o conceito de modelo saturado.

— Alex

A resposta de Zhanxiong já é ótima (+1), mas aqui está uma rápida demonstração de que a probabilidade logarítmica do modelo saturado é $0$ para uma regressão logística. Imaginei que iria postar porque não tinha visto o TeX neste site e porque acabei de escrevê-los para uma palestra.

A probabilidade é

\begin{matrix} (1) & eu (y; X, β) = \prod_{Eu = 1}^{n} f (y_{Eu}; x_{Eu}, β) = \prod_{Eu = 1}^{n} π_{Eu}^{y_{Eu}} (1 - π_{Eu})^{1 - y_{Eu}} = \prod_{Eu = 1}^{n} {(\frac{π_{Eu}}{1 - π_{Eu}})}^{y_{Eu}} (1 - π_{Eu}) \end{matrix}

$L(\mathbf{y} ; \mathbf{X}, \boldsymbol{\beta}) = \prod_{i=1}^n f(y_i ; \mathbf{x}_i, \boldsymbol{\beta}) = \prod_{i=1}^n \pi_i^{y_i}(1-\pi_i)^{1-y_i} = \prod_{i=1}^n\left( \frac{\pi_i}{1-\pi_i}\right)^{y_i} (1 - \pi_i) \tag{1}$ Onde

π_{i} = invlogit (x_{i}^{⊺} β)

$\pi_i = \text{invlogit}(\mathbf{x}_i^\intercal \boldsymbol{\beta} )$ .

A probabilidade de log é

\begin{aligned} registro eu (y; X, β) & = \sum_{Eu = 1}^{n} y_{Eu} registro (\frac{π_{Eu}}{1 - π_{Eu}}) + registro (1 - π_{Eu}) \\ = \sum_{Eu = 1}^{n} y_{Eu} logit (π_{Eu}) + registro (1 - π_{Eu}) \\ = \sum_{Eu = 1}^{n} y_{Eu} x_{Eu}^{⊺} β + registro (1 - invlogit (x_{Eu}^{⊺} β)) \\ = \sum_{Eu = 1}^{n} y_{Eu} x_{Eu}^{⊺} β + registro (invlogit (- x_{Eu}^{⊺} β)) \\ = \sum_{Eu = 1}^{n} y_{Eu} x_{Eu}^{⊺} β - registro (1 + \exp [x_{Eu}^{⊺} β])) \end{aligned}

$\begin{align*} \log L(\mathbf{y} ; \mathbf{X}, \boldsymbol{\beta}) &= \sum_{i=1}^n y_i \log \left( \frac{\pi_i}{1-\pi_i}\right) + \log(1-\pi_i) \\ &= \sum_{i=1}^n y_i \text{logit} \left( \pi_i \right) + \log(1-\pi_i) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} + \log( 1 - \text{invlogit}(\mathbf{x}_i^\intercal \boldsymbol{\beta} )) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} + \log( \text{invlogit}( - \mathbf{x}_i^\intercal \boldsymbol{\beta} )) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} - \log( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] )) \end{align*}$

Se você tomar os derivativos em relação a todos os coeficientes que obtém

\begin{matrix} 2) & \nabla ℓ (β) = \sum_{Eu = 1}^{n} y_{Eu} x_{Eu} - \frac{\exp [x_{Eu}^{⊺} β]}{(1 + \exp [x_{Eu}^{⊺} β])} x_{Eu} . \end{matrix}

$\nabla \ell(\boldsymbol{\beta}) = \sum_{i=1}^n y_i \mathbf{x}_i - \frac{\exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}]}{( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] ) }\mathbf{x}_i \tag{2}.$

Definir esta expressão igual a $\mathbf{0}$ e resolvendo para $\boldsymbol{\beta}$ lhe dará sua resposta. Geralmente, isso não pode ser feito analiticamente, o que explica a popularidade / necessidade do uso de algoritmos iterativos para ajustar-se a esse modelo, mas no caso de um modelo saturado, isso é possível.

Para encontrar o modelo saturado, damos a cada linha seu próprio coeficiente. então $\boldsymbol{\beta} \in \mathbb{R}^n$ e a matriz de projeto vezes o vetor de coeficiente é

X β = [\begin{matrix} 1 & 0 0 & \dots & 0 0 \\ 0 0 & 1 & \dots & 0 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 0 & 0 0 & \dots & 1 \end{matrix}] [\begin{matrix} β_{1} \\ β_{2} \\ ⋮ \\ β_{n} \end{matrix}] .

$\mathbf{X}\boldsymbol{\beta} = \begin{bmatrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1\\ \end{bmatrix} \begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n \end{bmatrix}.$

Observe que, em particular, $\mathbf{x}_i^\intercal \boldsymbol{\beta} = \beta_i$ .

Então, pegando o $j$ a linha da equação (2) nos fornece

\sum_{Eu = 1}^{n} y_{Eu} x_{Eu, j} = \sum_{Eu = 1}^{n} \frac{\exp [x_{Eu}^{⊺} β]}{(1 + \exp [x_{Eu}^{⊺} β])} x_{Eu, j}

$\sum_{i=1}^n y_i x_{i,j} = \sum_{i=1}^n\frac{\exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}]}{( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] ) }x_{i,j}$

o que só pode ser verdade se, para cada observação $i$ :

y_{Eu} = invlogit (β_{Eu})

$y_i = \text{invlogit}(\beta_i )$ ou em outras palavras, cada

β_{i}

$\beta_i$ é mais ou menos infinito (se

y_{i}

$y_i$ é

1

$1$ ou

0

$0$ , respectivamente). Podemos conectar esses parâmetros novamente em (1) para obter a probabilidade maximizada:

\prod_{Eu = 1}^{n} {\hat{π}}_{Eu}^{y_{Eu}} (1 - {\hat{π}}_{Eu})^{1 - y_{Eu}} = 1^{n} = 1

$\prod_{i=1}^n \hat{\pi}_i^{y_i}(1-\hat{\pi}_i)^{1-y_i} = 1^n = 1.$ Claramente, o log disso é

0

$0$ .

— Taylor
fonte

Mas isso pressupõe dados não agrupados . Se você tem grupos com

n_{i} > 1

$n_i>1$ (e os mesmos valores covariáveis) (em R, por exemplo, usando o formulário glm( cbind(k, n-k) ~ x + ... ), o modelo saturado não tem probabilidade de log zero.

— Kjetil b halvorsen

@kjetilbhalvorsen oh good point. Eu nunca tentei isso, deixe-me verificar

— Taylor

@ Alex: sim, está certo. pelo menos para distribuições discretas. para distribuições contínuas, tudo se resumiria a deixar a densidade igual a 1, o que não é necessariamente significativo e, portanto, não é uma coisa sensata a se tentar alcançar. de maneira um pouco mais geral, a probabilidade logarítmica do modelo saturado fornece um limite superior para o desempenho de qualquer modelo que siga sua suposição da família de distribuição subjacente. Em outras palavras, a probabilidade logarítmica de um modelo binomial saturado é "o melhor possível" para o conjunto de dados fornecido (X, Y), assumindo que Y é binomial. Faz sentido comparar seu modelo glm com esse limite superior em oposição a, digamos, 100% (ou similar), já que seu modelo é inerentemente restringido por sua suposição sobre a distribuição de respostas.

— bettmensch88
fonte