'Y deve ser normalmente distribuído'
devo?
Nos casos em que você menciona que é uma linguagem desleixada (abreviando 'o erro em Y deve ser normalmente distribuído' ), mas eles realmente não dizem (fortemente) que a resposta deve ser normalmente distribuída ou, pelo menos, não parece me que suas palavras foram destinadas assim.
O material do curso da Penn State
YYiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
YYi
YiY
A página de estatísticas
é uma descrição extremamente breve, simplificada e estilizada. Não tenho certeza se você deve levar isso a sério. Por exemplo, fala sobre
.. exige que todas as variáveis sejam multivariadas normais ...
então essa não é apenas a variável de resposta,
e também o descritor 'multivariado' é vago. Não sei como interpretar isso.
O artigo da wikipedia
tem um contexto adicional explicado entre colchetes:
A regressão linear ordinária prevê o valor esperado de uma dada quantidade desconhecida (a variável de resposta, uma variável aleatória) como uma combinação linear de um conjunto de valores observados (preditores) . Isso implica que uma mudança constante em um preditor leva a uma mudança constante na variável de resposta (ou seja, um modelo de resposta linear). Isso é apropriado quando a variável de resposta tem uma distribuição normal (intuitivamente, quando uma variável de resposta pode variar essencialmente indefinidamente em qualquer direção, sem "valor zero" fixo, ou mais geralmente para qualquer quantidade que varia apenas em uma quantidade relativamente pequena, por exemplo, humana alturas).
y+ϵϵ∼N(0,σ)
A linha específica foi adicionada em 8 de março de 2012 , mas observe que a primeira linha do artigo da Wikipedia ainda lê "uma generalização flexível da regressão linear comum que permite variáveis de resposta que possuem modelos de distribuição de erro diferentes de uma distribuição normal" e não é muito (não em toda parte) errado.
Conclusão
Portanto, com base nesses três exemplos (que de fato poderiam gerar conceitos errôneos, ou pelo menos poderiam ser mal compreendidos), eu não diria que "esse equívoco se espalhou" . Ou pelo menos não me parece que a intenção desses três exemplos seja argumentar que Y deve ser normalmente distribuído (embora eu me lembre que esse problema tenha surgido antes aqui no stackexchange, a troca entre erros normalmente distribuídos e a variável de resposta normalmente distribuída é fácil de fazer).
Portanto, a suposição de que 'Y deve ser normalmente distribuído' não me parece uma crença / concepção errônea generalizada (como em algo que se espalha como um arenque vermelho), mas mais como um erro comum (que não é espalhado, mas feito de forma independente a cada vez) )
Comentário adicional
Um exemplo do erro neste site está na seguinte pergunta
E se os resíduos forem normalmente distribuídos, mas y não?
Eu consideraria isso uma pergunta para iniciantes. Ele não está presente em materiais como o material do curso da Penn State, o site da Wikipedia e recentemente observou nos comentários o livro 'Estendendo a Regressão Linear com R'.
Os escritores dessas obras compreendem corretamente o material. De fato, eles usam frases como 'Y deve ser normalmente distribuído', mas com base no contexto e nas fórmulas usadas, você pode ver que todos significam 'Y, condicional em X, deve ser normalmente distribuído' e não 'o marginal Y deve ser normalmente distribuído '. Eles não estão entendendo mal a ideia e, pelo menos, a idéia não é difundida entre estatísticos e pessoas que escrevem livros e outros materiais do curso. Mas interpretar mal suas palavras ambíguas pode realmente causar o equívoco.