Como interpretar parâmetros no GLM com family = Gamma

21

Eu tenho uma pergunta sobre a interpretação de parâmetros para um GLM com uma variável dependente distribuída gama. É isso que R retorna para o meu GLM com um link de log:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

Como interpreto os parâmetros? Se eu calcular o exp(coef())meu modelo, recebo ~ 500 pela interceptação. Agora, acredito que isso não significa a renda esperada se todas as outras variáveis forem mantidas constantes, não é? Desde que a média mean(age)está em ~ 2000. Além disso, não tenho idéia de como interpretar a direção e o valor dos coeficientes das covariáveis.

r generalized-linear-model interpretation gamma-distribution

— - Reinstate Monica
fonte

6

500 estaria próximo da renda esperada se todas as outras variáveis fossem exatamente zero (não apenas constantes) - exatamente como na regressão.

— Glen_b -Reinstala Monica

@Glen_b, por que seria de se esperar uma receita quando exponencial de coeficientes é o efeito multiplicativo na receita quando há uma mudança na variável explicativa?

— Tatami #

O caso em discussão é a média condicional quando todas as variáveis explicativas são

— zero

25

A especificação de GLM gama ligada ao log é idêntica à regressão exponencial:

E [y | x, z] = \exp (α + β \cdot x + γ \cdot z) = \hat{y}

$E[y \vert x,z] = \exp \left( \alpha + \beta \cdot x +\gamma \cdot z \right)=\hat y$

$E[y \vert x=0,z=0]=\exp(\alpha)$

$y$ $x$ $x$

\frac{\partial E [y | x, z]}{\partial x} = \exp (α + β \cdot x + γ \cdot z) \cdot β = \hat{y} \cdot β

$\frac{\partial E[y \vert x,z]}{\partial x} = \exp \left( \alpha + \beta \cdot x +\gamma \cdot z\right)\cdot \beta=\hat y \cdot \beta$

$x$ $z$ $x$ $z$ $\hat y \cdot \beta$ $x$ $y$

$x$

E [y | z, x = 1] - E [y | z, x = 0 0] = \exp (α + β + γ \cdot z) - \exp (α + γ \cdot z) = \exp (α + γ \cdot z) \cdot (\exp (β) - 1)

$E[y \vert z,x=1]-E[y \vert z,x=0]=\exp \left( \alpha + \beta +\gamma \cdot z\right) - \exp \left( \alpha +\gamma \cdot z\right)= \exp \left( \alpha +\gamma \cdot z\right) \cdot\left( \exp(\beta)-1 \right)$

$x$

O terceiro método é exponenciar os coeficientes. Observe que:

\begin{matrix} E [y | z, x + 1] & = \exp (α + β \cdot (x + 1) + γ \cdot z) \\ = \exp (α + β \cdot x + β + γ \cdot z) \\ = \exp (α + β \cdot x + γ \cdot z) \cdot \exp (β) \\ = E [y | z, x] \cdot \exp (β) \end{matrix}

$\begin{array} _E[y \vert z,x+1] &= \exp \left( \alpha + \beta \cdot (x+1) +\gamma \cdot z \right) \\ &=\exp \left( \alpha + \beta \cdot x+\beta +\gamma \cdot z \right)\\ &=\exp \left( \alpha + \beta \cdot x +\gamma \cdot z \right)\cdot \exp(\beta) \\ &= E[y \vert z,x]\cdot \exp(\beta) \end{array}$

$x$

— Dimitriy V. Masterov
fonte

1

Você seria capaz de ilustrar a segunda interpretação?

— Tatami #

@ tatami Corrigi um erro no caso binário. Faz mais sentido agora?

— Dimitriy V. Masterov

2

Primeiro, examinaria os resíduos para ver como o modelo se encaixa. Se estiver tudo bem, eu tentaria usar outras funções de link, a menos que eu tivesse motivos para acreditar que realmente veio de uma distribuição gama. Se a gama ainda parecesse convincente, eu concluiria que os termos estatisticamente significativos são interceptação, altura, educação, sexo e ensino médio (aqueles marcados com três estrelas). Entre si, não se pode dizer mais a menos que sejam padronizados (tenham o mesmo alcance).

Resposta ao comentário: Compreendo melhor sua pergunta agora. Você absolutamente pode fazer isso! Um aumento de uma unidade na altura faz com que um exp (0,0082530) -1 ~ = 0,0082530 (usando o exp x = 1 + x aproximação para pequeno x) em relação a mudança no rendimento. Muito fácil de interpretar, não?

— Emre
fonte

1

Então, eu realmente não posso interpretar os parâmetros, por exemplo, a renda aumenta em xy se a altura aumenta em um?

1

Acredito agora que tenho que interpretá-lo multiplicativamente: exp (interceptação) * exp (altura) seria a renda com um aumento de 1 unidade em altura. Obrigado mesmo assim! :)