Suposição de normalidade na regressão linear


11

Como suposição de regressão linear, a normalidade da distribuição do erro às vezes é erroneamente "estendida" ou interpretada como a necessidade de normalidade de y ou x.

É possível construir um cenário / conjunto de dados em que X e Y não sejam normais, mas o termo do erro é e, portanto, as estimativas de regressão linear obtidas são válidas?


5
Exemplo trivial: X tem uma distribuição de Bernoulli (ou seja, assumindo os valores 0 ou 1); Y = X + N (0, 0,1). Nem X nem Y são normalmente distribuídos por si só, mas a regressão de Y em X ainda funciona.
Hong Ooi

Eu acho que você está pensando na distribuição dos resíduos, não na distribuição das variáveis.
Tashuhka


Respostas:


16

Expandindo o comentário de Hong Oois com uma imagem. Aqui está uma imagem de um conjunto de dados em que nenhum dos marginais é normalmente distribuído, mas os resíduos ainda são, portanto, as suposições da regressão linear ainda são válidas:

insira a descrição da imagem aqui

A imagem foi gerada pelo seguinte código R:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.