Por que o GLM é diferente de um LM com variável transformada


16

Conforme explicado neste folheto do curso (página 1) , um modelo linear pode ser escrito no formato:

y=β1x1++βpxp+εi,

onde y é a variável de resposta e xi é o ith variável de motivos.

Freqüentemente, com o objetivo de atender às premissas de teste, é possível transformar a variável de resposta. Por exemplo, aplicamos a função log em cada yi . Transformar uma variável de resposta NÃO equivale a fazer um GLM.

Um GLM pode ser escrito da seguinte forma (a partir do folheto do curso novamente (página 3) )

g(u)=β1x1++βpxp+εi,

onde u é apenas outro símbolo para y como eu entendo na página 2 do folheto do curso. g() é chamada de função de link.

Eu realmente não entendo a diferença entre um GLM e LM com variável transformada dos slides do curso. Você pode me ajudar com isso?


2
Você pode achar esclarecedor considerar o fato de que todas as transformações de um resultado binário são afins, o que limitaria você à regressão de mínimos quadrados comuns. Obviamente, não é isso que a regressão logística (um GLM padrão para respostas binárias) está realizando. (Prova: deixe que os valores de resultado sejam codificados como e y 1 e ϕ seja qualquer transformação. Escrevendo z 0 = ϕ ( y 0 ) e z 1 = ϕ ( y 1 ) achamos que ϕ concorda com { yy0y1ϕz0=ϕ(y0)z1=ϕ(y1)ϕ com y λ y + μ (que é uma transformação afim de y ) onde λ = ( z 1 - z 0 ) / ( y 1 - y 0 ) e μ = z 0 - λ y 0. ){y0,y1}yλy+μyλ=(z1z0)/(y1y0)μ=z0λy0
whuber

Respostas:


15

Transformar a resposta antes de fazer uma regressão linear está fazendo o seguinte:

E(g(Y))β0+β1x1++βpxp

onde é uma função dada, e assumimos queg tem uma determinada distribuição (geralmente normal).g(Y)

Um modelo linear generalizado está fazendo isso:

g(E(Y))β0+β1x1++βpxp

gY


o que é E na sua equação?
user1406647

11
E(X)X


22

Não tenho certeza se isso constituirá uma resposta completa para você, mas pode ajudar a libertar o impasse conceitual.

Parece haver dois conceitos errados em sua conta:

  1. Lembre-se de que a regressão de mínimos quadrados ordinários (OLS - 'linear') é um caso especial do modelo linear generalizado. Portanto, quando você diz que "[transformar] uma variável de resposta NÃO equivale a executar um GLM", isso está incorreto. Ajustar um modelo linear ou transformar a variável de resposta e, em seguida, ajustar um modelo linear constituem "fazer um GLM".

  2. Na formulação padrão de GLMs, o que você chama de "você"(geralmente representado por μ, mas isso é apenas uma questão de preferência) é a média da distribuição da resposta condicional em um local específico no espaço covariável (por exemplo, X) Assim, quando você diz "ondevocê é apenas outro símbolo para y", isso também está incorreto. Na formulação do OLS, Y é uma variável aleatória e / ou yEu é um valor realizado de Y para observação / unidade de estudo Eu. Isso é,y(mais genericamente) representa dados , não um parâmetro .

    (Não pretendo estar enganando os erros, apenas suspeito que isso possa estar causando sua confusão.)

  3. Há também outro aspecto do modelo linear generalizado que não vejo você mencionando. Ou seja, especificamos uma distribuição de resposta. No caso da regressão OLS, a distribuição da resposta é gaussiana (normal) e a função de link é a função de identidade. No caso de, digamos, regressão logística (que pode ser o que as pessoas pensam quando pensam nos GLMs), a distribuição da resposta é o Bernoulli (/ binomial) e a função de link é o logit. Ao usar transformações para garantir que as suposições do OLS sejam atendidas, geralmente tentamos tornar a distribuição de resposta condicional aceitável normal. No entanto, nenhuma transformação tornará a distribuição de Bernoulli aceitável normal.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.