E se os resíduos forem normalmente distribuídos, mas y não?

110

Eu tenho uma pergunta estranha. Suponha que você tenha uma pequena amostra em que a variável dependente que você analisará com um modelo linear simples é altamente inclinada para a esquerda. Assim, você assume que não é normalmente distribuído, porque isso resultaria em distribuído normalmente . Mas quando você calcula o gráfico QQ-Normal, há evidências de que os resíduos são normalmente distribuídos. Assim, qualquer um pode assumir que o termo do erro é normalmente distribuído, embora não seja. Então, o que significa quando o termo de erro parece ser normalmente distribuído, mas não? $u$ $y$ $y$ $y$

— MarkDollar
fonte

143

$y \sim \mathcal{N}(\beta x, \sigma^2)$ $\beta=1$ $y$ $x$ $y$ $x$ $x$ $x$ $y$ $x$ $y$ $x$

— Dikran Marsupial
fonte

9

(+1) Não acho que isso possa ser repetido com bastante frequência! Veja também o mesmo problema discutido aqui .

— 23411 Wolfgang

11

β = 1

$\beta=1$

y \sim N (1 \cdot x, σ^{2})

$y\sim N(1\cdot x,\sigma^{2})$

E (y | x)

$E(y|x)$

x

$x$

y \sim N (v a l u e, σ^{2})

$y\sim N(value,\sigma^{2})$

y

$y$

x

$x$

y

$y$

4

p (y, x)

$p(y,x)$

E (y | x)

$E(y|x)$

y

$y$

x

$x$

y

$y$

x

$x$

x

$x$

— Dikran Marsupial

2

y

$y$

x

$x$

y

$y$

y

$y$

E (y | x)

$E(y|x)$

p (y, x)

$p(y,x)$

100

$Y$ $X$

$\beta_0$ $\beta_1$

B P_{s y s} = 160 - 1 \times daily drug dosage + ε where ε \sim N (0, 9)

$BP_{sys}=160-1\times\text{daily drug dosage}+\varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, 9)$

X

$X$

insira a descrição da imagem aqui

$Y$

insira a descrição da imagem aqui

$Y$ $Y$

$Y$ $X$ $p<.05$ $\beta_1$

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532

insira a descrição da imagem aqui

Esses resultados mostram que tudo funciona bem.

$X$ $Y$ $X$

— ung
fonte

11

Portanto, a suposição de que os resíduos são normalmente distribuídos é apenas para valores-p estarem corretos? Por que os valores p podem dar errado se o resíduo não é normal?

— abacate

3

@ loganecolss, isso pode ser melhor como uma nova pergunta. De qualquer forma, sim , tem a ver com se os valores p estão corretos. Se seus resíduos são suficientemente não normais e seu N é baixo, a distribuição da amostra será diferente da teoria em que ela é. Como o valor-p é quanto dessa distribuição amostral está além da estatística de teste, o valor-p estará errado.

— gung

0

$X$ $Y$ $X$

— Dovini Jayasinghe
fonte

3

A distribuição marginal da resposta não é "sem sentido"; é a distribuição marginal da resposta (e geralmente deve sugerir modelos diferentes da regressão simples com erros normais). Você está certo ao enfatizar que as distribuições condicionais são importantes uma vez que entretemos o modelo em questão, mas isso não adiciona utilidade às excelentes respostas existentes.

— Nick Cox