Qual a diferença entre padronização e estudianização?

21

Será que na padronização a variação é conhecida, enquanto na estudantilização não é conhecida e, portanto, estimada? Obrigado.

standardization

— 58485362
fonte

2

Você pode esclarecer o contexto de sua pergunta. Que tipo de padronização, que tipo de aluno? Para que esses valores estão sendo usados?

— 22714 russellpierce

3

Se você está perguntando sobre resíduos , a terminologia não é (ahem) padronizada . Autores diferentes usam nomes diferentes para a mesma coisa e, ocasionalmente - e, infelizmente, de maneira mais confusa, o mesmo nome para coisas diferentes. Há o que eu chamo de (i) escalado resíduos (

(y - {\hat{y}}_{i}) / s

$(y-\hat{y}_i)/s$ , chamados padronizados resíduos por alguns autores); (ii) resíduos estudantilizados internamente (chamados padronizados por alguns autores / pacotes, estudados por outros); (iii) estudado externamente / estudioso excluídoresíduos

— Glen_b -Reinstate Monica

20

Uma breve recapitulação. Dado um modelo , onde é , e , onde $y=X\beta+\varepsilon$ $X$ $n\times p$ $\hat\beta=(X'X)^{-1}X'y$ $\hat y=X\hat\beta=X(X'X)^{-1}X'y=Hy$ é a "matriz do chapéu". Os resíduos são A variância da população é desconhecida e pode ser estimado por , o erro médio quadrático. $H=X(X'X)^{-1}X'$

e = y - \hat{y} = y - H y = (Eu - H) y

$e=y-\hat y=y-Hy=(I-H)y$

σ^{2}

$\sigma^2$

M S E

$MSE$

Os resíduos semi-estudados são definidos como mas, uma vez que a variância dos resíduos depende tantoe, a sua variância estimada ondeé o-ésimo elemento diagonal da matriz do chapéu.

e_{Eu}^{*} = \frac{e_{Eu}}{\sqrt{M S E}}

$e_i^*=\frac{e_i}{\sqrt{MSE}}$

σ^{2}

$\sigma^2$

X

$X$

\hat{V} (e_{Eu}) = M S E (1 - h_{Eu Eu})

$\widehat V(e_i)=MSE(1-h_{ii})$

h_{i i}

$h_{ii}$

i

$i$

Os resíduos padronizados , também chamados de resíduos estudados internamente , são:

r_{Eu} = \frac{e_{Eu}}{\sqrt{M S E (1 - h_{Eu Eu})}}

$r_i=\frac{e_i}{\sqrt{MSE(1-h_{ii})}}$

No entanto, o único e não são independentes, de modo não podem ter uma distribuição. O procedimento é, em seguida, para eliminar o th observação, encaixar a função de regressão para as restantes observações, e obter novas s' que podem ser representados por . A diferença: é denominado $e_i$ $MSE$ $r_i$ $t$ $i$ $n-1$ $\hat y$ $\hat y_{i(i)}$

d_{Eu} = y_{Eu} - {\hat{y}}_{Eu (Eu)}

$d_i=y_i-\hat y_{i(i)}$ residual excluído . Uma expressão equivalente que não requer recomputação é:

Denotando os novos

e

por

e

, uma vez que eles não dependem da

ésima observação, obtemos:

d_{Eu} = \frac{e_{Eu}}{1 - h_{Eu Eu}}

$d_i=\frac{e_i}{1-h_{ii}}$

X

$X$

M S E

$MSE$

X_{(i)}

$X_{(i)}$

M S E_{(i)}

$MSE_{(i)}$

i

$i$

a

's são chamadosestudantizado(eliminados)resíduos, ouresíduos estudantizado externamente.

t_{Eu} = \frac{d_{Eu}}{\sqrt{\frac{M S E_{(Eu)}}{1 - h_{Eu Eu}}}} = \frac{e_{Eu}}{\sqrt{M S E_{(Eu)} (1 - h_{Eu Eu})}} \sim t_{n - p - 1}

$t_i=\frac{d_i}{\sqrt{\frac{MSE_{(i)}}{1-h_{ii}}}} =\frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}}\sim t_{n-p-1}$

t_{i}

$t_i$

Veja Kutner et al., Modelos Estatísticos Lineares Aplicados , Capítulo 10.

Edit: Devo dizer que a resposta por rpierce é perfeita. Eu pensei que o PO fosse sobre resíduos padronizados e estudados (e dividir pelo desvio padrão da população para obter resíduos padronizados parecia estranho para mim, é claro), mas eu estava errado. Espero que minha resposta possa ajudar alguém, mesmo que o AT.

— Sergio
fonte

2

... e esta resposta está correta na definição de resíduos estudados de uma equação de regressão. Não há definição de um resíduo padronizado correspondente. A estrutura de regressão parece não se aplicar à pergunta. Mas essa ainda é uma contribuição valiosa; 1

— russellpierce

2

@ rpierce, você está certo: assim que eu li "studentization", eu também li "resíduos", mas eles só estavam na minha mente ;-) Desculpe. Eu notei minha supervisão somente após o último clique.

— Sergio

9

$s$ $\sigma$

No entanto, parece que existem algumas diferenças terminológicas entre os campos (consulte os comentários nesta resposta). Portanto, deve-se proceder com cautela ao fazer essas distinções. Além disso, as pontuações estudantis raramente são chamadas assim e normalmente se vê valores 'estudados' no contexto da regressão. O @Sergio fornece detalhes sobre esses tipos de resíduos excluídos por estudantes em sua resposta.

— russellpierce
fonte

2

A Wikipedia acrescenta: "O termo também é usado para a padronização de uma estatística de maior grau por outra estatística do mesmo grau: por exemplo, uma estimativa do terceiro momento central seria padronizada dividindo pelo cubo do desvio padrão da amostra. "

— Nick Stauner

2

Eu acho que seria mais seguro dizer que Studentization é a forma de padronização disponível se a variação populacional for desconhecida. Isso assume a forma de um ponto de distinção técnico e terminológico, em vez de uma declaração enganosa sobre o termo mais geral e amplamente usado.

— Nick Stauner

2

σ

$\sigma$

2

@ Nick Parece uma boa resolução, já que várias autoridades usam amplamente a "padronização", mas nenhuma (AFAIK) usa "studentize" em um sentido tão amplo.

— whuber

2

@rpierce O segundo livro (Freedman, Pisani e Purves) existe há cerca de 40 anos, através de cinco edições (praticamente inalteradas), e começou a vida como o texto do curso de introdução às estatísticas da UC Berkeley. Abrange quase todos os campos concebíveis, não apenas a saúde pública. Por outro lado, um de seus pontos fortes é evitar enfatizar distinções pequenas, sem sentido ou excessivamente técnicas, portanto, embora seja um bom guia para as estatísticas em geral, não se pode confiar para resolver questões misteriosas.

— whuber

3

Estou muito atrasado em responder a esta pergunta !!. Mas não consegui encontrar a resposta em linguagem muito simples, uma tentativa tão humilde de responder.

Por que fazemos padronização? Imagine que você tem dois modelos: um prevê a loucura a partir do tempo gasto no estudo de estatísticas, enquanto outro prediz log (loucura) com a quantidade de tempo nas estatísticas.

seria difícil entender que os resíduos estão em unidades diferentes. Então, nós os padronizamos. (Teoria semelhante ao escore Z)

Resíduos padronizados: - Quando os resíduos são divididos por uma estimativa do desvio padrão. Em geral, se o valor absoluto> 3, é motivo de preocupação.

Usamos isso para investigar valores discrepantes no modelo.

Residual Studentizado: Usamos isso para estudar a estabilidade do modelo.

Processo é simples. Removemos o caso de teste individual do modelo e descobrimos o novo valor previsto. A diferença entre o novo valor e o valor observado original pode ser padronizada dividindo-se o erro padrão. esse valor é Residualizado Studentizado

Para obter mais informações sobre como descobrir estática usando R - http://www.statisticshell.com/html/dsur.html

— NBhoyar
fonte

1

A Wikipedia tem uma boa visão geral em https://en.wikipedia.org/wiki/Normalization_(statistics) :

$\frac{X - \mu}{\sigma}$

$\frac{X - \overline{X}}{s}$

— asmaier
fonte