Estimadores inconsistentes são sempre preferíveis?

A consistência é obviamente um estimador de propriedades natural e importante, mas há situações em que pode ser melhor usar um estimador inconsistente em vez de consistente?

Mais especificamente, existem exemplos de um estimador inconsistente que supera um estimador consistente razoável para todos os finitos (com relação a alguma função de perda adequada)? $n$

estimation consistency

— MånsT
fonte

Há uma troca interessante no desempenho entre a consistência da seleção do modelo e a consistência dos parâmetros nos problemas de estimativa usando o laço e suas (muitas!) Variantes. Isso está detalhado, por exemplo, no texto recente de Bühlmann e van der Geer.

— cardeal

O argumento da minha resposta, agora excluída, ainda não se mantém? A saber: em amostras pequenas, é melhor ter um estimador imparcial com baixa variância. Ou pode-se mostrar que um estimador consistente sempre apresenta uma variação menor do que qualquer outro avaliador imparcial?

— Bob Jansen

Talvez, @Bootvis! Você tem um exemplo de um estimador inconsistente com baixo MSE?

— MånsT

@ Bootvis: se você observar os extensos comentários sobre uma resposta a uma pergunta recente sobre consistência versus imparcialidade, verá que um estimador consistente pode ter um comportamento arbitrariamente selvagem, tanto da variação quanto do viés (mesmo que simultaneamente!) . Isso deve remover todas as dúvidas sobre o seu comentário.

— cardeal

Eu pensei que tinha em um dos dois livros, mas aparentemente eu estava errado sobre isso também! O exemplo não está em lugar nenhum. @cardinal: Sons interessante, irá verificá-la

— Bob Jansen

Esta resposta descreve um problema realista em que um estimador consistente natural é dominado (superou todos os valores possíveis de parâmetros para todos os tamanhos de amostra) por um estimador inconsistente. Ele é motivado pela ideia de que a consistência é mais adequada para perdas quadráticas, portanto, o uso de uma perda que se afaste fortemente (como uma perda assimétrica) deve tornar a consistência quase inútil na avaliação do desempenho dos estimadores.

Suponha que seu cliente deseje estimar a média de uma variável (assumida como tendo uma distribuição simétrica) a partir de uma amostra iid , mas eles são avessos a (a) subestimá-la ou (b) superestimá-la . $(x_1, \ldots, x_n)$

Para ver como isso pode resultar, adote uma função simples de perda, entendendo que, na prática, a perda pode diferir quantitativamente (mas não qualitativamente) dessa perda. Escolha as unidades de medida para que seja a maior superestima tolerável e defina a perda de uma estimativa quando a média verdadeira for igual a sempre que e igual a caso contrário. $1$ $t$ $\mu$ $0$ $\mu \le t\le \mu+1$ $1$

Os cálculos são particularmente simples para uma família normal de distribuições com média e variância , para então a amostra média $\mu$ $\sigma^2 \gt 0$ tem umadistribuiçãoNormal. A média da amostra é um estimador consistente de, como é bem conhecido (e óbvio). Escrevendopara a CDF normal padrão, a perda esperada da média da amostra é igual a $\bar{x}=\frac{1}{n}\sum_i x_i$ $(\mu, \sigma^2/n)$ $\mu$ $\Phi$ :vem da probabilidade de 50% que a média da amostra irá subestimar a média verdadeira e $1/2 + \Phi(-\sqrt{n}/\sigma)$ $1/2$ vem da chance de superestimar a verdadeira média em mais de. $\Phi(-\sqrt{n}/\sigma)$ $1$

Perdas

A perda esperada de é igual à área azul neste PDF normal padrão. A área vermelha mostra a perda esperada do estimador alternativo abaixo. Eles diferem substituindo a área azul sólida entre $\bar{x}$ epela área vermelha sólida menor entre $-\sqrt{n}/(2\sigma)$ $0$ e $\sqrt{n}/(2\sigma)$ . Essa diferença cresce à medida queaumenta. $\sqrt{n}/\sigma$ $n$

Um estimador alternativa dada por tem uma perda esperada de $\bar{x}+1/2$ . A simetria e a unimodalidade das distribuições normais implicam que a perda esperada é sempre melhor do que a média da amostra. (Isto faz com que a média da amostrainadmissívelpara esta perda.) Na verdade, a perda esperada da média da amostra tem um limite inferior de, enquanto a das converge alternativos paracomocresce. No entanto, a alternativa claramente é inconsistente: comocresce, que converge em probabilidade para. $2\Phi(-\sqrt{n}/(2\sigma))$ $1/2$ $0$ $n$ $n$ $\mu+1/2 \ne \mu$

Funções de perda

Os pontos azuis mostram perda de e pontos vermelhos mostram perda de como uma função do tamanho da amostra . $\bar{x}$ $\bar{x}+1/2$ $n$

— whuber
fonte

(+1) Seu comentário "a consistência é mais adequada para perdas quadráticas" também me interessa, mas não é óbvio para mim (e talvez para outros) de onde isso vem. Claramente, a convergência em

é mais adequada para perdas quadráticas e a convergência em

implica convergência em probabilidade, mas qual é a motivação para essa citação no contexto de convergência quase certa, conhecida como "consistência forte"?

L_{2}

$L_2$

L_{2}

$L_2$

— Macro

@ Macro O pensamento é um tanto indireto e não pretende ser rigoroso, mas acredito que é natural: a perda quadrática implica uma variação minimizada que (via Chebyshev) leva à convergência em probabilidade. Portanto, uma heurística para encontrar um contra-exemplo deve se concentrar em perdas que estão tão longe da quadrática que essas manipulações são malsucedidas.

— whuber

1 / 2

$1/2$

0

$0$

n

$n$

@ Michael OK, obrigado por explicar isso. Nesse contexto, com uma perda não quadrática, uma "vantagem" não é expressa em termos de viés. Alguém pode criticar essa função de perda, mas não quero rejeitá-la completamente: ela modela situações em que, por exemplo, os dados são medições de um item fabricado com certas tolerâncias e seria desastroso (como na falha do anel de vedação do Shuttle ou falência comercial desastrosa) para que o verdadeiro meio fique fora dessas tolerâncias.

— whuber

(+1) Ótima resposta, @whuber! Eu particularmente gosto que isso não parece muito patológico - posso pensar em muitas situações em que esse tipo de perda seria aplicável.

— MånsT