Suposição de normalidade na regressão linear

Como suposição de regressão linear, a normalidade da distribuição do erro às vezes é erroneamente "estendida" ou interpretada como a necessidade de normalidade de y ou x.

É possível construir um cenário / conjunto de dados em que X e Y não sejam normais, mas o termo do erro é e, portanto, as estimativas de regressão linear obtidas são válidas?

regression linear-model assumptions

— ECII
fonte

Exemplo trivial: X tem uma distribuição de Bernoulli (ou seja, assumindo os valores 0 ou 1); Y = X + N (0, 0,1). Nem X nem Y são normalmente distribuídos por si só, mas a regressão de Y em X ainda funciona.

— Hong Ooi

Eu acho que você está pensando na distribuição dos resíduos, não na distribuição das variáveis.

— Tashuhka

Eu tenho um exemplo elaborado aqui: E se os resíduos forem normalmente distribuídos, mas Y não?

— gung - Restabelece Monica

Relacionados: stats.stackexchange.com/questions/148803/...

— b Kjetil Halvorsen

Expandindo o comentário de Hong Oois com uma imagem. Aqui está uma imagem de um conjunto de dados em que nenhum dos marginais é normalmente distribuído, mas os resíduos ainda são, portanto, as suposições da regressão linear ainda são válidas:

insira a descrição da imagem aqui

A imagem foi gerada pelo seguinte código R:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")

— Rasmus Bååth
fonte