Se o encolhimento é aplicado de maneira inteligente, ele sempre funciona melhor para estimadores mais eficientes?

Suponha que eu tenho dois estimadores e que são estimadores consistentes do mesmo parâmetro e que com no sentido psd. Portanto, assintoticamente é mais eficiente que . Esses dois estimadores são baseados em diferentes funções de perda. $\widehat{\beta}_1$ $\widehat{\beta}_2$ $\beta_0$

\sqrt{n} ({\hat{β}}_{1} - β_{0}) \overset{d}{\to} N (0, V_{1}), \sqrt{n} ({\hat{β}}_{2} - β_{0}) \overset{d}{\to} N (0, V_{2})

$\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)$

V_{1} \leq V_{2}

$V_1 \leq V_2$

{\hat{β}}_{1}

$\widehat{\beta}_1$

{\hat{β}}_{2}

$\widehat{\beta}_2$

Agora, quero procurar algumas técnicas de contração para melhorar as propriedades de amostras finitas dos meus estimadores.

Suponha que eu encontrei uma técnica de encolhimento que aprimore o estimador em uma amostra finita e me dê o valor de MSE igual a . Isso implica que eu posso encontrar uma técnica de encolhimento adequada para aplicar a que me dará o MSE não maior que ? $\widehat{\beta}_2$ $\widehat{\gamma}_2$ $\widehat{\beta}_1$ $\widehat{\gamma}_2$

Em outras palavras, se o encolhimento é aplicado de maneira inteligente, ele sempre funciona melhor para estimadores mais eficientes?

— Alik
fonte

Respostas:

Deixe-me sugerir um contra-exemplo reconhecidamente um pouco chato. Dizer que não é apenas assintoticamente mais eficiente do que , mas também atinge a Cramer Rao Limite Inferior. Uma técnica encolhimento inteligente para com . A variância assintótica de $\hat{\beta}_1$ $\hat{\beta}_2$ $\hat{\beta}_2$

{\hat{β}}_{2}^{*} = w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}

$\hat{\beta}_2^\ast = w \hat{\beta}_2 + (1 - w) \hat{\beta}_1$

w \in (0, 1)

$w\in(0,1)$

{\hat{β}}_{2}^{*}

$\hat{\beta}_2^\ast$ é

onde a última igualdade usa o Lema em

V^{*} = A v a r (w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}) = A v a r (w ({\hat{β}}_{2} - {\hat{β}}_{1}) + {\hat{β}}_{1}) = V_{1} + w^{2} (V_{2} - V_{1})

$V^\ast = \mathbb{Avar}(w \hat{\beta}_2 + (1 - w) \hat{\beta}_1) = \mathbb{Avar}(w (\hat{\beta}_2 - \hat{\beta}_1) + \hat{\beta}_1 ) = V_1 + w^2 (V_2 - V_1)$ Artigo de Hausman . Temos

portanto há uma melhoria do risco assintótico (não há termos de viés). Assim, encontramos uma técnica de encolhimento que dá alguma assintótica (e amostra, portanto, esperamos que finito) melhorias ao longo

. No entanto, não existe encolhimento estimador semelhante

que se segue a partir deste procedimento.

V_{2} - V^{*} = V_{2} (1 - w^{2}) - V_{1} (1 - w^{2}) \geq 0

$V_2 - V^\ast = V_2(1-w^2) - V_1(1-w^2) \geq 0$

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}^{*}

$\hat{\beta}_1^\ast$

O ponto aqui, é claro, é que o encolhimento é feito em relação ao estimador eficiente e, portanto, não é aplicável ao próprio estimador eficiente. Isso parece bastante óbvio em um nível alto, mas eu acho que em um exemplo específico isso não é tão óbvio (o estimador MLE e Method of Moments para a distribuição uniforme pode ser um exemplo?).

— Matthias Schmidtblaicher
fonte

Obrigado pelo exemplo interessante! (1) No entanto, não é claro para mim que esta deve ser considerada uma contra-exemplo: é tanto assintótica e não mostrar que

não pode ser melhorado para ter a mesma ou menor risco. (Na verdade, o seu

automaticamente tem, na melhor das hipóteses, o mesmo risco que

.) A fim de proporcionar um contra-exemplo, o risco de um estimador modificado

terá que ser menor do que o risco de

, e não está claro que isso é possível com este esquema.

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

— user795305

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}

$\hat{\beta}_1$

{\hat{β}}_{2}^{⋆}

$\hat{\beta}^\star_2$

{\hat{β}}_{j}^{*} = f_{j} ({\hat{β}}_{j})

$\hat\beta_j^* = f_j(\hat\beta_j)$

f_{j}

$f_j$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

r i s k ({\hat{β}}_{2}) \geq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_2) \ge risk(\hat\beta_2^*)$

f_{1}

$f_1$

r i s k ({\hat{β}}_{1}^{*}) \leq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_1^*) \le risk(\hat\beta_2^*)$

f_{1}

$f_1$

f (β, x)

$f(\beta, x)$

r i s k (f ({\hat{β}}_{2}, x)) < r i s k ({\hat{β}}_{2})

$risk(f(\hat{\beta}_2,x)) < risk(\hat{\beta}_2)$

g (β, x)

$g(\beta, x)$

r i s k (g ({\hat{β}}_{1}, x)) < r i s k ({\hat{β}}_{1})

$risk(g(\hat{\beta}_1,x)) < risk(\hat{\beta}_1)$

obrigado por compartilhar esses créditos, mesmo que eu realmente não tenha respondido à sua pergunta ...

— Matthias Schmidtblaicher

-2

Esta é uma pergunta interessante, onde quero destacar alguns destaques primeiro.

Dois estimadores são consistentes
$\hat{\beta}_1$ $\hat\beta_2$
As funções de perda não são as mesmas
um método de encolhimento é aplicado a um, para reduzir a variação que, por si só, resulta em um melhor estimador
Pergunta : Em outras palavras, se o encolhimento é aplicado de maneira inteligente, ele sempre funciona melhor para estimadores mais eficientes?

Fundamentalmente, é possível melhorar um estimador em uma certa estrutura, como uma classe imparcial de estimadores. No entanto, conforme indicado por você, diferentes funções de perda dificultam a situação, pois uma função de perda pode minimizar a perda quadrática e a outra minimiza a entropia. Além disso, o uso da palavra "sempre" é muito complicado, pois se um estimador é o melhor da classe, você não pode reivindicar um avaliador melhor, logicamente falando.

$l_p$ $\beta$ $y=x\beta+e$ $e\sim N(0,\sigma^2<\infty)$ $\sigma$ $x$ $l_p$ $p=3$ $p=2$ $p\rightarrow 1$

Portanto, minha resposta para sua pergunta é sim, considerando que você assume a mesma família de estimadores e a mesma função de perda, além de suposições.

— TPArrow
fonte

p \to 1

$p \to 1$

p = 3

$p=3$

p = 2

$p=2$

ℓ_{p}

$\ell_p$

l_{p}

$l_p$

l_{1}

$l_1$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

ℓ_{p}

$\ell_p$

{\hat{α}}_{j}^{p} = \arg min_{α} ‖ α - {\hat{β}}_{j} ‖_{2}^{2} + λ ‖ α ‖_{p}

$\hat\alpha^p_j = \arg\min_\alpha \|\alpha-\hat\beta_j\|_2^2 + \lambda \|\alpha\|_p$

j \in {1, 2}

$j \in \{1,2\}$

p = 2, 3

$p=2,3$

obrigado @Ben, sinto que não temos um consenso na definição de encolhimento. Você considera isso como um pós-processo, mas eu como um processamento em linha. Acho que ambos estamos certos, pois a questão não está levando em conta o tipo de encolhimento. PS: Eu acho que o que você quer dizer com retração é como limiar rígido.

— precisa saber é o seguinte

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$