Não, resíduos estudados e resíduos padronizados são conceitos diferentes (mas relacionados).
De fato, o R fornece funções internas rstandard()
e rstudent()
como parte das medidas de influência . O mesmo pacote interno fornece muitas funções semelhantes para alavancagem, a distância de Cook etc. rstudent()
é essencialmente o mesmo MASS::studres()
que você pode verificar por si mesmo:
> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE
Os resíduos padronizados são uma maneira de estimar o erro de um ponto de dados específico que leva em consideração a alavancagem / influência do ponto. Eles são chamados de "resíduos estudados internamente".
ri=eis(ei)=eiMSE(1−hii)−−−−−−−−−−−√
A motivação por trás dos resíduos padronizados é que, embora nosso modelo tenha assumido homoscedasticidade com um termo de erro iid com variação fixa , a distribuição, os resíduos não podem ser identificados porque o a soma dos resíduos é sempre exatamente zero.ϵi∼N(0,σ2)ei
Os resíduos estudados para qualquer ponto de dados são calculados a partir de um modelo adequado a todos os outros pontos de dados, exceto o em questão. Eles são chamados de "resíduos residuais estudados externamente", "resíduos excluídos" ou "resíduos com facas".
Isso parece computacionalmente difícil ( parece que teríamos que ajustar um novo modelo para cada ponto), mas, na verdade, há uma maneira de computá-lo apenas do modelo original sem reajustar. Se o resíduo padronizado for , o resíduo estudado será:riti
ti=ri(n−k−2n−k−1−r2i)1/2,
A motivação por trás dos resíduos estudados vem do seu uso em testes externos. Se suspeitarmos que um ponto é discrepante, ele não foi gerado a partir do modelo assumido, por definição. Portanto, seria um erro - uma violação de premissas - incluir essa discrepância na adaptação do modelo. Os resíduos estudados são amplamente utilizados na detecção prática de outlier.
Os resíduos estudados também têm a propriedade desejável de que, para cada ponto de dados, a distribuição do resíduo será distribuída em t, assumindo que as suposições de normalidade do modelo de regressão original foram atendidas. (Os resíduos padronizados não têm uma distribuição tão agradável.)
Por fim, para solucionar quaisquer preocupações de que a biblioteca R possa estar seguindo uma nomenclatura diferente da acima, a documentação do R declara explicitamente que eles usam "padronizado" e "estudado" no exato mesmo sentido descrito acima.
Funções rstandard
e rstudent
forneça os resíduos padronizados e estudados, respectivamente. (Eles re-normalizam os resíduos para que tenham variação de unidade, usando uma medida geral e deixe de fora a variação de erro, respectivamente.)
R
terminologia é o oposto de Montgomery, Peck e Vining (um livro de regressão popular que existe há 35 anos). Portanto, tenha cuidado, e certifique-se de estudar aR
documentação e, se necessário, o código fonte, em vez de confiar no que você acha que a terminologia significa.