Qual é a relação entre estimador e estimativa?

21

estimation terminology estimators

5

"Nas estatísticas, um estimador é uma regra para calcular uma estimativa de uma determinada quantidade com base nos dados observados: assim, a regra e seu resultado (a estimativa) são distinguidos." (Primeira linha do artigo da Wikipedia en.wikipedia.org/wiki/Estimator ).

— whuber

+1 Estou votando positivamente para esta pergunta (apesar da presença de uma resposta bem formulada em uma página óbvia da Wikipedia) porque as tentativas iniciais de respondê-la aqui apontaram algumas sutilezas.

— whuber

@whuber, posso dizer que as estimativas dos parâmetros do modelo são o estimador?

— amigos estão

2

@loganecolss Um estimador é uma função matemática. Isso se distingue do valor (a estimativa) que pode atingir para qualquer conjunto de dados. Uma maneira de apreciar a diferença é observar que certos conjuntos de dados produzirão as mesmas estimativas , digamos, da inclinação em uma regressão linear usando diferentes estimadores (como Máxima Verossimilhança ou Mínimos Quadrados Iterativamente Retrabalhados, por exemplo). Sem distinguir estimativas dos estimadores usados para produzir essas estimativas, não poderíamos entender o que essa afirmação diz.

— whuber

@whuber, mesmo com um determinado conjunto de dados , um estimador diferente também pode fornecer estimativas diferentes, não é?

D

$D$

— abacate

13

EL Lehmann, em sua clássica teoria da estimativa de pontos , responde a essa pergunta nas páginas 1-2.

As observações são agora postuladas como sendo os valores assumidos por variáveis aleatórias que se supõe seguir uma distribuição de probabilidade conjunta, , pertencente a alguma classe conhecida ... $P$

... vamos nos especializar agora para apontar estimativas ... suponha que seja uma função com valor real definida [na classe estipulada de distribuições] e que gostaríamos de saber o valor de [seja qual for a distribuição real em efeito, ]. Infelizmente, e, portanto, , é desconhecido. No entanto, os dados podem ser usados para obter uma estimativa de , um valor que se espera que esteja próximo de . $g$ $g$ $\theta$ $\theta$ $g(\theta)$ $g(\theta)$ $g(\theta)$

Em palavras: um estimador é um procedimento matemático definido que gera um número (a estimativa ) para qualquer conjunto de dados possível que um determinado problema possa produzir. Esse número pretende representar alguma propriedade numérica definida ( ) do processo de geração de dados; podemos chamar isso de "estimativa". $g(\theta)$

O estimador em si não é uma variável aleatória: é apenas uma função matemática. No entanto, a estimativa que ela produz é baseada em dados que são modelados como variáveis aleatórias. Isso transforma a estimativa (pensada como dependendo dos dados) em uma variável aleatória e uma estimativa específica para um conjunto específico de dados se torna uma realização dessa variável aleatória.

Em uma formulação (convencional) de mínimos quadrados ordinários, os dados consistem em pares ordenados . O foi determinado pelo pesquisador (podem ser quantidades de um medicamento administrado, por exemplo). cada (uma resposta à droga, por exemplo) provém de uma distribuição de probabilidade Normal, mas com média desconhecida e variação comum . Além disso, supõe-se que os meios estejam relacionados ao por meio de uma fórmula . Esses três parâmetros - , e $(x_i, y_i)$ $x_i$ $y_i$ $\mu_i$ $\sigma^2$ $x_i$ $\mu_i = \beta_0 + \beta_1 x_i$ $\sigma$ $\beta_0$ $\beta_1$ - determine a distribuição subjacente de para qualquer valor de . Portanto, qualquer propriedade dessa distribuição pode ser pensada como uma função de . Exemplos de tais propriedades são a interceptação , a inclinação , o valor de ou mesmo a média no valor , que (de acordo com esta formulação ) deve ser . $y_i$ $x_i$ $(\sigma, \beta_0, \beta_1)$ $\beta_0$ $\beta_1$ $\cos(\sigma + \beta_0^2 - \beta_1)$ $x=2$ $\beta_0 + 2 \beta_1$

Nesse contexto de OLS, um não exemplo de um estimador seria um procedimento para adivinhar o valor de se fosse definido como 2. Isso não é um estimador porque esse valor de é aleatório (de uma maneira completamente separada de a aleatoriedade dos dados): não é uma propriedade (numérica definida) da distribuição, mesmo que esteja relacionada a essa distribuição. (Como acabamos de ver, no entanto, a expectativa de para , igual a , pode ser estimada.) $y$ $x$ $y$ $y$ $x=2$ $\beta_0 + 2 \beta_1$

Na formulação de Lehmann, quase qualquer fórmula pode ser um estimador de quase qualquer propriedade. Não existe um vínculo matemático inerente entre um estimador e um estimador. No entanto, podemos avaliar - com antecedência - a chance de um estimador estar razoavelmente próximo da quantidade que ele pretende estimar. Maneiras de fazer isso e como explorá-las são o assunto da teoria das estimativas.

— whuber
fonte

1

(+1) Uma resposta muito precisa e detalhada.

— chl

2

A função de uma variável aleatória não é também uma variável aleatória?

— jsk

@jsk Acho que a distinção que eu estava tentando fazer aqui pode ser esclarecida considerando a composição das funçõesA primeira função é uma variável aleatória ; o segundo (chame-o ) é denominado aqui um estimador , e a composição dos dois é uma "estimativa" ou "procedimento de estimativa", que é - como você diz corretamente - uma variável aleatória.

Ω \to R^{n} \to R .

$\Omega\to\mathbb{R}^n\to\mathbb{R}.$

X

$X$

t

$t$

t \circ X : Ω \to R

$t\circ X:\Omega\to\mathbb{R}$

— whuber

1

@whuber No seu post, você diz "O próprio estimador não é uma variável aleatória". Tentei fazer uma edição em sua postagem para esclarecer o ponto em que você e eu concordamos, mas parece que alguém rejeitou minha edição. Talvez eles prefiram sua edição!

— jsk

Vamos continuar esta discussão no chat .

— whuber

7

Em resumo: um estimador é uma função e uma estimativa é um valor que resume uma amostra observada.

Um estimador é uma função que mapeia uma amostra aleatória para a estimativa de parâmetro:

\hat{Θ} = t (X_{1}, X_{2}, . . ., X_{n})

$\hat{\Theta}=t(X_1,X_2,...,X_n)$ Observe que um estimador de n variáveis aleatórias é uma variável aleatória . Por exemplo, um estimador é a média da amostra: Uma estimativa é o resultado da aplicação da função do estimador a uma amostra observada em minúsculas :

X_{1}, X_{2}, . . ., X_{n}

$X_1,X_2,...,X_n$

\hat{Θ}

$\hat{\Theta}$

\bar{X} = \frac{1}{n} \sum_{n = 1}^{n} X_{i}

$\overline{X}=\frac{1}{n}\sum_{n=1}^nX_i$

\hat{θ}

$\hat{\theta}$

x_{1}, x_{2}, . . ., x_{n}

$x_1,x_2,...,x_n$

\hat{θ} = t (x_{1}, x_{2}, . . ., x_{n})

$\hat{\theta}=t(x_1,x_2,...,x_n)$ Por exemplo, uma estimativa da amostra observada é a média da amostra:

x_{1}, x_{2}, . . ., x_{n}

$x_1,x_2,...,x_n$

\hat{μ} = \bar{x} = \frac{1}{n} \sum_{n = 1}^{n} x_{i}

$\hat{\mu}=\overline{x}=\frac{1}{n}\sum_{n=1}^nx_i$

— Freeman
fonte

estimador é um RV, enquanto estimativa é uma constante?

— Parthiban Rajendran

A sua conclusão não está em conflito com a @ whuber's? Aqui você diz que o estimador é RV, mas o whuber diz o contrário.

— Parthiban Rajendran

Sim, eu discordo da afirmação @ whuber: "O estimador em si não é uma variável aleatória: é apenas uma função matemática". Uma função da variável aleatória também é uma variável aleatória. onlinecourses.science.psu.edu/stat414/node/128

— Freeman:

3

Pode ser útil ilustrar a resposta do whuber no contexto de um modelo de regressão linear. Digamos que você tenha alguns dados bivariados e use Mínimos Quadrados Ordinários para criar o seguinte modelo:

Y = 6X + 1

Nesse ponto, você pode pegar qualquer valor de X, conectá-lo ao modelo e prever o resultado, Y. Nesse sentido, você pode pensar nos componentes individuais da forma genérica do modelo ( mX + B ) como estimadores . Os dados da amostra (que você presumivelmente conectou ao modelo genérico para calcular os valores específicos para m e B acima) forneceram uma base na qual você pode apresentar estimativas para m e B, respectivamente.

Consistente com os pontos do @ whuber em nosso tópico abaixo, quaisquer que sejam os valores de Y que um determinado conjunto de estimadores gera para você, são considerados, no contexto da regressão linear, como valores previstos.

(editado - algumas vezes - para refletir os comentários abaixo)

— ashaw
fonte

1

Você definiu bem um preditor. É sutilmente (mas importante) diferente de um estimador. O estimador nesse contexto é a fórmula de mínimos quadrados usada para calcular os parâmetros 1 e 6 a partir dos dados.

— whuber

Hmm, eu não quis dizer dessa maneira, @whuber, mas acho que seu comentário ilustra uma ambiguidade importante no meu idioma que eu não havia notado antes. O ponto principal aqui é que você pode pensar na forma genérica da equação Y = mX + B (como usada acima) como um estimador, enquanto os valores previstos específicos gerados por exemplos específicos dessa fórmula (por exemplo, 1 + 6X) são estimativas. Deixe-me tentar editar o parágrafo acima para captura essa distinção ...

— ashaw

Aliás, estou tentando explicar isso sem introduzir a notação "chapéu" que encontrei na maioria das discussões sobre livros didáticos sobre esse conceito. Talvez esse seja o melhor caminho, afinal?

— ashaw

2

Acho que você alcançou um bom meio termo entre precisão e tecnicidade em sua resposta original: continue assim! Você não precisa de chapéus, mas se conseguir mostrar como um estimador se distingue de outras coisas de aparência semelhante, isso seria muito útil. Mas observe a distinção entre prever um valor Y e estimar um parâmetro como m ou b . Y pode ser interpretado como uma variável aleatória; me não são (exceto em um cenário bayesiano).

— whuber

de fato, um ponto muito bom em termos de parâmetros versus valores lá. Editando novamente ...

— ashaw

0

Suponha que você recebeu alguns dados e teve alguma variável observada chamada theta. Agora seus dados podem ser de uma distribuição de dados; para essa distribuição, existe um valor correspondente de teta que você deduz que é uma variável aleatória. Você pode usar o MAP ou a média para calcular a estimativa dessa variável aleatória sempre que a distribuição de seus dados for alterada. Portanto, a variável aleatória teta é conhecida como estimativa , um valor único da variável não observada para um tipo específico de dados.

Enquanto estimador são seus dados, que também é uma variável aleatória. Para diferentes tipos de distribuições, você tem diferentes tipos de dados e, portanto, uma estimativa diferente e, portanto, essa variável aleatória correspondente é chamada de estimador .

— Ankur Kothari
fonte