Por que o estimador de James-Stein é chamado de estimador de "retração"?

Eu tenho lido sobre o estimador de James-Stein. É definido, nestas notas , como

\hat{θ} = (1 - \frac{p - 2}{__X {__}^{2}}) X

$\hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X$

Li a prova, mas não entendo a seguinte declaração:

Geometricamente, o estimador de James – Stein reduz cada componente de direção à origem ... $X$

O que significa "encolher cada componente de direção à origem" significa exatamente? Eu estava pensando em algo como que é verdade neste caso, desde que , já que $X$

__\hat{θ} - 0 0 {__}^{2} <__X - 0 0 {__}^{2},

$\|\hat{\theta} - 0\|^2 < \|X - 0\|^2,$

(p + 2) < ‖ X ‖^{2}

$(p+2) < \|X\|^2$

__\hat{θ}__= \frac{__X {__}^{2} - (p + 2)}{__X {__}^{2}}__X__.

$\|\hat{\theta}\| = \frac{\|X\|^2 - (p+2)}{\|X\|^2} \|X\|.$

É isso que as pessoas querem dizer quando dizem "encolher em direção a zero" porque, no sentido da norma $L^2$ , o estimador JS está mais perto de zero que $X$ ?

Atualização em 22/09/2017 : Hoje percebi que talvez eu esteja complicando demais as coisas. Parece que as pessoas realmente querem dizer que, depois de multiplicar por algo menor que , o termo , cada componente de será menor do que costumava ser. $X$ $1$ $\frac{\|X\|^2 - (p + 2)}{\|X\|^2}$ $X$

— 3x89g2
fonte

Às vezes, uma imagem vale mais que mil palavras, então deixe-me compartilhar uma com você. Abaixo você pode ver uma ilustração que vem do paradoxo de Steinley nas estatísticas de Bradley Efron (1977) . Como você pode ver, o que o estimador de Stein faz é mover cada um dos valores para mais perto da média geral. Torna valores maiores que a média geral menores e valores menores que a média geral maiores. Por contração, queremos dizer mover os valores para a média ou para zero em alguns casos - como regressão regularizada - que reduz os parâmetros para zero.

Obviamente, não se trata apenas de encolher, mas o que Stein (1956) e James e Stein (1961) provaram, é que o estimador de Stein domina o estimador de probabilidade máxima em termos de erro quadrado total,

E_{μ} (__{\hat{μ}}^{J S} - μ {__}^{2}) < E_{μ} (__{\hat{μ}}^{M eu E} - μ {__}^{2})

$E_\mu(\| \boldsymbol{\hat\mu}^{JS} - \boldsymbol{\mu} \|^2) < E_\mu(\| \boldsymbol{\hat\mu}^{MLE} - \boldsymbol{\mu} \|^2)$

onde , é o estimador de Stein e , em que ambos os estimadores são estimados na amostra . As provas são fornecidas nos documentos originais e no apêndice do documento a que você se refere. Em inglês simples, o que eles mostraram é que, se você fizer suposições simultaneamente , em termos de erro quadrático total, seria melhor encolhê-las, em comparação com a aderência às suposições iniciais. $\boldsymbol{\mu} = (\mu_1,\mu_2,\dots,\mu_p)'$ $\hat\mu^{JS}_i$ $\hat\mu^{MLE}_i = x_i$ $x_1,x_2,\dots,x_p$ $p > 2$

Finalmente, o estimador de Stein certamente não é o único estimador que fornece o efeito de encolhimento. Para outros exemplos, você pode verificar esta entrada do blog ou o referido livro de análise de dados bayesiano de Gelman et al. Você também pode verificar os tópicos sobre regressão regularizada, por exemplo, que problema os métodos de encolhimento solucionam? , ou Quando usar métodos de regularização para regressão? , para outras aplicações práticas desse efeito.

— Tim
fonte

O artigo parece útil e vou ler. Atualizei minha pergunta para explicar melhor meus pensamentos. Você poderia dar uma olhada? Obrigado!

— 3x89g2

@ Tim Acho que o argumento de Misakov é legítimo, pois o estimador James-Stein aproxima o estimador de de zero que o MLE. O zero desempenha um papel central e central neste estimador e podem ser construídos estimadores de James-Stein que encolhem em direção a outros centros ou mesmo subespaços (como em George, 1986). Por exemplo, Efron e Morris (1973) encolhem em direção à média comum, que equivale ao subespaço diagonal.

θ

$\theta$

— Xian