Família de GLM representa a distribuição da variável de resposta ou resíduos?


13

Estive discutindo com vários membros do laboratório sobre esse assunto e fomos a várias fontes, mas ainda não temos a resposta:

Quando dizemos que um GLM tem uma família de poisson , digamos que estamos falando sobre a distribuição dos resíduos ou a variável de resposta?

Pontos de discórdia

  1. Ao ler este artigo, afirma que as suposições do GLM são: A independência estatística das observações, a especificação correta da função de link e variância (o que me faz pensar sobre os resíduos, não a variável de resposta), a escala correta de medição para a variável de resposta e falta de influência indevida de pontos únicos

  2. Essa pergunta tem duas respostas com dois pontos cada, a que aparece primeiro fala sobre os resíduos e a segunda sobre a variável resposta, qual é?

  3. Neste post do blog , ao falar sobre suposições, eles afirmam " A distribuição dos resíduos pode ser outra, por exemplo, binomial "

  4. No início deste capítulo, eles dizem que a estrutura dos erros deve ser Poisson, mas os resíduos certamente terão valores positivos e negativos, como pode ser Poisson?

  5. Esta pergunta, que é freqüentemente citada em perguntas como esta para duplicá-las, não tem uma resposta aceita

  6. Esta pergunta as respostas falam sobre resposta e não resíduos

  7. Na presente descrição do curso da Universidade de Pensilvania eles falam sobre a variável resposta nas suposições, e não os resíduos

Respostas:


18

O argumento da família para os modelos glm determina a família de distribuição para a distribuição condicional da resposta , não dos resíduos (exceto para os quase- modelos).

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

β0+xiTβϵi

Portanto, para todas as outras famílias, usamos uma definição no estilo da primeira equação exibida acima. Ou seja, a distribuição condicional da resposta. Portanto, não, os resíduos (o que for definido) na regressão de Poisson não têm uma distribuição de Poisson.


13

Além da excelente resposta de Kjetil, eu gostaria de adicionar alguns exemplos específicos para ajudar a esclarecer o significado de uma distribuição condicional , que pode ser um conceito um tanto esquivo.

Digamos que você tenha colhido uma amostra aleatória de 100 peixes de um lago e esteja interessado em ver como a idade do peixe afeta várias variáveis ​​de resultado:

  1. Peso do peixe (peso);
  2. Se o peixe tem ou não mais de 30 cm;
  3. Número de escamas de peixe.

A primeira variável de resultado é contínua, a segunda é binária (0 = peixe NÃO tem mais de 30 cm; 1 = peixe tem mais de 30 cm) e a terceira é uma variável de contagem.

Regressão linear simples

Como a idade afeta o peso? Você vai formular um modelo de regressão linear simples do formulário:

Weight=β0+β1Age+ϵ

ϵσβ0+β1Age

Regressão logística binária simples

Como o Age afeta se o peixe tem ou não mais de 30 cm? Você vai formular um modelo de regressão logística binária simples do formulário:

log(p1p)=β0+β1Age

pβ0+β1Agepp(1p)

Regressão simples de Poisson

Como o Age afeta o número de escamas de peixe? Você vai formular um modelo de regressão simples de Poisson da forma:

log(μ)=β0+β1Age

μβ0+β1Age

Em resumo, uma distribuição condicional representa a distribuição dos valores dos resultados para valores específicos da (s) variável (s) preditora (s) incluída (s) no modelo . Cada tipo de modelo de regressão ilustrado acima impõe certas suposições distributivas na distribuição condicional da variável de resultado dada a Idade. Com base nessas premissas distributivas, o modelo prossegue para formular como (1) a média da distribuição condicional varia em função da idade (regressão linear simples), (2) a média transformada em logit da distribuição condicional varia em função da idade (regressão logística binária simples) ou (3) a média transformada em log da distribuição condicional varia em função da idade.

Para cada tipo de modelo, é possível definir os resíduos correspondentes para fins de verificação do modelo. Em particular, os resíduos de Pearson e de desvio podem ser definidos para os modelos de regressão logística e de Poisson.


2
Excelentes respostas. Graças a vocês dois. Eu nunca percebi que o residual "real" nunca é realmente explícito na estrutura geral do GLM, como no caso de distribuição normal.
mlofton

1
@mlofton: Obrigado por suas amáveis ​​palavras. Uma excelente pergunta convidou excelentes respostas. Todos nós nos beneficiamos dessa troca de conhecimentos.
Isabella Ghement 30/10

4
Eu usei o GLM há muito tempo (por um ano ou dois, como 10 anos atrás) e essa sempre foi minha confusão, mas eu nunca soube que era minha confusão até que ela foi perguntada com tanta clareza e explicada com tanta clareza. Então, às vezes, confusão significa nem ser capaz de fazer a pergunta certa. Obrigado novamente.
mlofton

1
Você está absolutamente certo! A confusão faz parte do aprendizado - quando lutamos com algo por um tempo, somos preparados para entendê-lo melhor quando de repente nos deparamos com uma explicação clara.
Isabella Ghement

1
Meu prazer e obrigado pela sua excelente resposta @IsabellaGhement
Patrick
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.