Resíduos brutos versus resíduos padronizados versus resíduos estudantis - o que usar quando?

Esta parece uma pergunta semelhante e não obter muitas respostas.

Omitindo testes como o D de Cook e apenas olhando resíduos como um grupo, estou interessado em saber como outros usam resíduos ao avaliar a qualidade do ajuste. Eu uso os resíduos brutos:

em um gráfico QQ, para avaliar a normalidade
em um gráfico de dispersão de versus resíduos, para verificação do globo ocular de (a) hereerecedcedasticidade e (b) autocorrelação serial. $y$

Para plotar versus resíduos para examinar os valores de onde podem ocorrer outliers, eu prefiro usar os resíduos estudados . A razão da minha preferência é que ela permite uma fácil visualização de quais resíduos nos quais os valores são problemáticos, embora os resíduos padronizados forneçam um resultado extremamente semelhante. Minha teoria sobre a qual é usada é que depende de qual universidade frequentou. $y$ $y$ $y$

É semelhante a como os outros usam resíduos? Outros usam esse número de gráficos em combinação com estatísticas resumidas?

goodness-of-fit residuals

— Michelle
fonte

Os resíduos estudados são indubitavelmente melhores na detecção de valores extremos e, talvez, um pouco melhor na inspeção de heterocedasticidade. Para outros fins, não faz diferença para mim quais resíduos usar.

— ttnphns

Para chamar a atenção para uma pergunta, Michelle, ou pedir uma alteração em seu status (como CW), siga o link "sinalizador" abaixo da pergunta. Isso notificará automaticamente todos os moderadores. A incorporação de solicitações em perguntas, comentários ou respostas é um sucesso ou um fracasso, porque depende da esperança de que um moderador (ou outro usuário de alta reputação) realmente o leia dentro de um prazo razoável!

— whuber

@ whuber Ah, veja, eu acho que um de vocês eventualmente o lerá. :) Obrigado pela dica sobre o uso de sinalizadores.

— 31512 Michelle

Oi @ttnphns Por que eles seriam melhores? Em particular, por que o aluno seria melhor do que o padronizado? (Eu nunca soube realmente a resposta aqui)

— Peter Flom - Reinstate Monica

@ Peter, os resíduos estudantis são menos "distorcidos" pelo item de ajuste do OLS e mais próximos da noção teórica de "erros" . Eles podem ser comparados diretamente em diferentes regiões da linha de ajuste, portanto, são melhores na decisão se um ponto é um erro.

— precisa saber é o seguinte

Respostas:

Isso não é tanto uma resposta, mas um esclarecimento sobre a terminologia. Sua pergunta é sobre resíduos brutos, padronizados e estudados. No entanto, essa não é a terminologia usada pela maioria dos estatísticos, embora eu note que suas notas de aula afirmam que é.

Raw: o mesmo que você possui.

Padronizado: na verdade, são os resíduos brutos divididos pelo desvio padrão real dos resíduos. Como o verdadeiro desvio padrão raramente é conhecido, quase nunca é utilizado um resíduo padronizado.

Alunos internamente: como o desvio padrão real dos resíduos normalmente não é conhecido, o desvio padrão estimado é usado. Esse é um resíduo interanlamente estudado e é o que você chamou de padronizado.

Alunos externamente: o mesmo que o residual estudado internamente, exceto que a estimativa do desvio padrão dos resíduos é calculada a partir de uma regressão, deixando de fora a observação em questão.

Pearson: o resíduo bruto dividido pelo desvio padrão da variável de resposta (a variável y) em vez dos resíduos. Você não tem este listado.

"deixe um de fora": não tem um nome formal, mas é o mesmo que as notas da aula.

standarized "deixe um de fora": também não tem um nome formal, mas não é isso que as notas da classe chamam de estudioso.

Fontes:

o mesmo link wiki que você possui sobre resíduos estudados ("um residual estudado é o quociente resultante da divisão de um resíduo por uma estimativa de seu desvio padrão")
documentação para cálculo residual no SAS

— Michael Cooney
fonte

+1 Certamente alguns estatísticos usaram os termos da pergunta do OP (e nem sempre perfeitamente de forma consistente com outros usando as mesmas palavras). Eu acho que os termos que você usa estão se tornando mais comuns, mas não tenho certeza de que base podemos adivinhar seu uso relativamente mundial entre estatísticos - artigos, por exemplo, não ajudam necessariamente porque o estatístico médio não estará ativo publicação. Você pode estar certo - mas como saberíamos? [Se você editar novamente, convém substituir "padronizado" no final por "padronizado".]

— Glen_b -Reinstala Monica

Re: parcelas,

Existe o sobreajuste, mas o excesso de plotagem não pode realmente causar muito dano, especialmente no estágio de diagnóstico. Um gráfico de probabilidade normal padronizado não pode prejudicar próximo ao seu gráfico de QQ. Acho melhor avaliar o meio da distribuição.

Re: resíduos,

Eu corro os resíduos padronizados e estudados no estágio de rascunho e geralmente acabo codificando os padronizados. Não sei o que as outras pessoas realmente executam, porque os diagnósticos são realmente codificados no material de replicação que encontro online.

Re: diagnóstico,

vifhettest $R^2$

— Pe.
fonte