Por que a regressão linear tem suposição no modelo linear residual, mas generalizado, tem suposições na resposta?


14

Por que a regressão linear e o Modelo Generalizado têm suposições inconsistentes?

  • Na regressão linear, assumimos que vem residual de Gauss
  • Em outra regressão (regressão logística, regressão venenosa), assumimos que a resposta vem de alguma distribuição (binomial, poissão etc.).

Por que, às vezes, pressupõe tempo residual e outro tempo na resposta? É porque queremos derivar propriedades diferentes?


Edição: Eu acho que mark999 mostra duas formas são iguais. No entanto, tenho mais uma dúvida sobre o iid:

Minha outra pergunta, existe uma suposição sobre regressão logística? mostra que o modelo linear generalizado não possui suposição iid (independente, mas não idêntica)

É verdade que, para regressão linear, se colocarmos suposição no residual , teremos iid, mas se colocarmos suposição na resposta , teremos amostras independentes, mas não idênticas (Gaussiana diferente com diferente )?μ


Respostas:


12

A regressão linear simples com erros gaussianos é um atributo muito bom que não generaliza para modelos lineares generalizados.

Nos modelos lineares generalizados, a resposta segue uma determinada distribuição, dada a média . A regressão linear segue esse padrão; se tiver-mos

yEu=β0 0+β1xEu+ϵEu

com ϵEuN(0 0,σ)

então nós também temos

yEuN(β0 0+β1xEu,σ)

Ok, então a resposta segue a distribuição fornecida para modelos lineares generalizados, mas para regressão linear também temos que os resíduos sigam uma distribuição gaussiana. Por que é enfatizado que os resíduos são normais quando essa não é a regra generalizada? Bem, porque é a regra muito mais útil. O bom de pensar sobre a normalidade dos resíduos é que isso é muito mais fácil de examinar. Se subtrairmos as médias estimadas, todos os resíduos deverão ter aproximadamente a mesma variação e aproximadamente a mesma média (0) e serão distribuídos aproximadamente normalmente (nota: eu digo "aproximadamente" porque se não tivermos estimativas perfeitas da parâmetros de regressão, o que obviamente não sabemos, a variação das estimativas de ϵEuterá diferentes variações com base nos intervalos de . Mas espero que haja precisão suficiente nas estimativas de que isso é ignorável!).x

Por outro lado, olhando para o desajustado 's, não podemos realmente dizer se eles são normais, se todos eles têm diferentes meios. Por exemplo, considere o seguinte modelo:yEu

yEu=0 0+2×xEu+ϵEu

com e x i ~ Bernoulli ( p = 0,5 )ϵEuN(0 0,0,2)xEuBernoulli(p=0,5)

yEu

Aqui está um Rcódigo para ilustrar.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

histogramas


yEu=1+2×xEu+ϵEu

3
@ hxd1011: sim, esta é a diferença entre a distribuição marginal (claramente não normal) e a distribuição condicional dada x (sabemos que é normal desde que a simulamos!). Não pensar na diferença entre distribuições condicionais e marginais é um erro extremamente comum.
Cliff AB

14

Eu=1,...,n

YEu=β0 0+β1XEu1+...+βkXEuk+ϵEu,
ϵEuσ2XEu1,...,XEuk, a resposta .YEuβ0 0+β1XEu1+...+βkXEukσ2

XEu1,...,XEukβ0 0+β1XEu1+...+βkXEuk como sendo constantes.

O modelo usual de regressão linear múltipla com erros normais é um modelo linear generalizado com resposta normal e link de identidade.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.