Por que o diagnóstico é baseado em resíduos?

Na regressão linear simples, geralmente se deseja verificar se certas premissas são atendidas para poder fazer inferência (por exemplo, os resíduos são normalmente distribuídos).

É razoável verificar as premissas, verificando se os valores ajustados são normalmente distribuídos?

regression residuals diagnostic

— bdeonovic
fonte

Por que o diagnóstico é baseado em resíduos?

Como muitas das suposições estão relacionadas à distribuição condicional de , não à sua distribuição incondicional. Isso é equivalente a uma suposição sobre os erros, que estimamos pelos resíduos. $Y$

Na regressão linear simples, geralmente se deseja verificar se certas premissas são atendidas para poder fazer inferência (por exemplo, os resíduos são normalmente distribuídos).

A suposição de normalidade real não é sobre os resíduos, mas sobre o termo do erro. O mais próximo dos que você tem são os resíduos, e é por isso que os verificamos.

É razoável verificar as suposições, verificando se os valores ajustados são normalmente distribuídos?

Não. A distribuição dos valores ajustados depende do padrão dos 's. Não diz muito sobre as suposições. $x$

Por exemplo, acabei de executar uma regressão nos dados simulados, para os quais todas as suposições foram especificadas corretamente. Por exemplo, a normalidade dos erros foi satisfeita. Aqui está o que acontece quando tentamos verificar a normalidade dos valores ajustados:

diagnóstico de normalidade em equipamentos

Eles são claramente não normais; na verdade, eles parecem bimodais. Por quê? Bem, porque a distribuição dos valores ajustados depende do padrão dos 's. Os erros foram normais, mas os valores ajustados podem ser quase tudo. $x$

Outra coisa que as pessoas costumam verificar (com muito mais frequência) é a normalidade dos s ... mas incondicionalmente em ; novamente, isso depende do padrão de s e, portanto, não diz muito sobre as suposições reais. Novamente, eu gerei alguns dados em que todas as suposições são válidas; aqui está o que acontece quando tentamos verificar a normalidade dos valores incondicionais : $y$ $x$ $x$ $y$

diagnóstico de normalidade em valores y brutos

Novamente, a não normalidade que vemos aqui (os y's estão inclinados) não está relacionada à normalidade condicional dos . $y$

Na verdade, tenho um livro ao meu lado agora que discute essa distinção (entre a distribuição condicional e a distribuição incondicional de ) - isto é, explica em um capítulo anterior por que apenas olhar para a distribuição dos não é direita e, em capítulos subsequentes, verifica repetidamente a suposição de normalidade, observando a distribuição dos valores sem considerar o impacto dos 's para avaliar a adequação das suposições (outra coisa que geralmente faz é apenas olhar para histogramas para fazer essa avaliação, mas esse é outro problema ). $Y$ $y$ $-$ $y$ $-$ $x$ $-$

Quais são as suposições, como as verificamos e quando precisamos fazê-las?

Os podem ser tratados como fixos (observados sem erros). Geralmente, não tentamos verificar isso com diagnóstico (mas devemos ter uma boa idéia se é verdade). $x$
A relação entre e no modelo está especificada corretamente (por exemplo, linear). Se subtrairmos o modelo linear de melhor ajuste, não deve haver padrão restante na relação entre a média dos resíduos . $E(Y)$ $x$ $x$
A variação constante (por exemplo, não depende de . A propagação dos erros é constante; pode ser verificada observando a propagação dos resíduos em relação a ou verificando alguma função dos resíduos quadrados contra e verificação de alterações na média (por exemplo, funções como o log ou a raiz quadrada. R usa a quarta raiz dos resíduos quadrados). $\text{Var}(Y|x)$ $x$ $x$ $x$
Independência condicional / independência de erros. É possível verificar formas particulares de dependência (por exemplo, correlação serial). Se você não pode prever a forma da dependência, é um pouco difícil de verificar.
Normalidade a distribuição condicional de / normalidade de erros. Pode ser verificado, por exemplo, fazendo um gráfico QQ de resíduos. $Y$

(Na verdade, existem outras suposições que não mencionei, como erros aditivos, de que os erros têm média zero e assim por diante.)

Se você estiver interessado apenas em estimar o ajuste da linha dos mínimos quadrados e não em erros padrão, não precisará fazer a maioria dessas suposições. Por exemplo, a distribuição de erros afeta a inferência (testes e intervalos) e pode afetar a eficiência da estimativa, mas a linha LS ainda é melhor linearmente imparcial, por exemplo; portanto, a menos que a distribuição seja tão fora do normal que todos os estimadores lineares sejam ruins, não será necessariamente um grande problema se as suposições sobre o termo de erro não se mantiverem.

— Glen_b -Reinstate Monica
fonte

Adicionei alguns diagramas à minha resposta.

— Glen_b -Reinstala Monica 11/11

Esta é uma ótima resposta. Se você quiser mais, abordo aqui um território semelhante: E se os resíduos forem normalmente distribuídos, mas Y não?

— gung - Restabelece Monica

@gung Eu estou me chutando por não ligar para ele primeiro.

— Glen_b -Reinstala Monica 11/11

@ Glen: Muito boa disposição. Eu tive a mesma confusão por um longo tempo, graças ao tratamento não tão bom do tópico nos livros didáticos e quase em muitos recursos na internet. Por outro lado, a distribuição incondicional de Y é quase sempre examinada para deduzir um modelo para a distribuição condicional, especialmente no contexto de séries temporais. Existe um raciocínio teórico por trás disso? Tentei perguntar-lo como uma pergunta, mas eu acho que não podia expressá-lo corretamente: stats.stackexchange.com/questions/74886/...

— Cagdas Ozgenc

@CagdasOzgenc A única razão pela qual posso pensar em fazê-lo é porque é fácil fazê-lo antes de você ter um modelo. A resposta que você tem nessa pergunta vinculada parecia uma boa resposta para mim quando foi postada.

— Glen_b -Reinstala Monica 14/11