Existe um exemplo em que o MLE produz uma estimativa tendenciosa da média?

17

Você pode fornecer um exemplo de um estimador de MLE da média que é tendenciosa?

Não estou procurando um exemplo que quebre os estimadores de MLE em geral, violando as condições de regularidade.

Todos os exemplos que vejo na internet referem-se à variação e não consigo encontrar nada relacionado à média.

EDITAR

O @MichaelHardy forneceu um exemplo em que obtemos uma estimativa tendenciosa da média da distribuição uniforme usando o MLE sob um determinado modelo proposto.

Contudo

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

sugere que o MLE é um estimador imparcial mínimo uniforme da média, claramente em outro modelo proposto.

Neste ponto, ainda não está muito claro para mim o que se entende por estimativa do MLE, se é um modelo muito dependente de hipóteses, em vez de dizer um estimador médio de amostra que é neutro em relação ao modelo. No final, estou interessado em estimar algo sobre a população e realmente não me importo com a estimativa de um parâmetro de um modelo hipotético.

EDIT 2

Como o @ChristophHanck mostrou o modelo com informações adicionais introduziu o viés, mas não conseguiu reduzir o MSE.

Também temos resultados adicionais:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (slide 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (slide 5)

"Se um estimador imparcial mais eficiente ˆθ de θ existe (ou seja, isθ é imparcial e sua variação é igual ao CRLB), então o método de estimativa de probabilidade máxima o produzirá."

"Além disso, se existe um estimador eficiente, é o estimador de ML".

Como o MLE com parâmetros de modelo livre é imparcial e eficiente, por definição é "o" Estimador de Máxima Verossimilhança?

EDIT 3

O @AlecosPapadopoulos tem um exemplo com distribuição Half Normal no fórum de matemática.

/math/799954/can-the-maximum-likelihood-estimator-be-unbiated-and-fail-to-achieve-cramer-rao

Não está ancorando nenhum de seus parâmetros, como no caso uniforme. Eu diria que isso resolve, embora ele não tenha demonstrado o viés do estimador médio.

maximum-likelihood mean bias

— Cagdas Ozgenc
fonte

10

A média de um uniforme em zero e teta.

— Christoph Hanck

1

Não posso seguir sua distinção entre "estimar algo sobre a população" e "um parâmetro de um modelo hipotético". Em todas as estatísticas paramétricas, parametrizamos uma população por alguns parâmetros. É claro que podemos, assim, encontrar problemas de especificação incorreta, mas isso não parece ser relevante para o problema em questão.

— Christoph Hanck

5

Por exemplo, que uma população pode ser caracterizada por seus parâmetros / momentos, como média e variância (o que seria suficiente para uma população normal, por exemplo). E: Eu não acho que as pessoas sejam mais ou menos pedantes com você do que com qualquer outra pessoa neste fórum.

— Christoph Hanck

2

Se você está insatisfeito com o aparente truque manual de alternar entre "parâmetro" e "médio", deixe-me definir uma certa distribuição não negativa em termos de sua média

, com densidade

μ

$\mu$

em seu suporte a

...

\frac{1}{2 μ}

$\frac{1}{2\mu}$

[0, 2 μ]

$[0, 2\mu]$

— Silverfish

1

Em relação à sua edição 2, muitos desses resultados são derivados sob condições de regularidade que não são atendidas pelo exemplo uniforme discutido neste encadeamento, para o qual o espaço de amostra depende do parâmetro.

— Christoph Hanck

32

Christoph Hanck não publicou os detalhes de seu exemplo proposto. Presumo que ele significa a distribuição uniforme no intervalo base em uma amostra iid de tamanho maior que $[0,\theta],$ $X_1,\ldots,X_n$ $n=1.$

A média é . $\theta/2$

O MLE da média é $\max\{X_1,\ldots,X_n\}/2.$

Isso é tendencioso, já que então $\Pr(\max < \theta) = 1,$ $\operatorname{E}({\max}/2)<\theta/2.$

PS: Talvez devêssemos notar que o melhor estimador imparcial da média não é a média da amostra, mas sim $\theta/2$ A média da amostra é um péssimo estimador de porque, para algumas amostras, a média da amostra é menor que

\frac{n + 1}{2 n} \cdot max {X_{1}, \dots, X_{n}} .

$\frac{n+1} {2n} \cdot \max\{X_1,\ldots,X_n\}.$

θ / 2

$\theta/2$

e é claramente impossível para

para ser inferior a

final de PS

\frac{1}{2} max {X_{1}, \dots, X_{n}},

$\dfrac 1 2 \max\{X_1,\ldots,X_n\},$

θ / 2

$\theta/2$

max / 2.

${\max}/2.$

Suspeito que a distribuição de Pareto seja outro caso. Aqui está a medida de probabilidade: O valor esperado é

α {(\frac{κ}{x})}^{α} \frac{d x}{x} for x > κ .

$\alpha\left( \frac \kappa x \right)^\alpha\ \frac{dx} x \text{ for } x >\kappa.$

O MLE do valor esperado é

\frac{α}{α - 1} κ .

$\dfrac \alpha {\alpha -1 } \kappa.$

onde

\frac{n}{n - \sum_{i = 1}^{n} ((\log X_{i}) - \log (min))} \cdot min

$\frac n {n - \sum_{i=1}^n \big((\log X_i) - \log(\min)\big)} \cdot \min$

min = min {X_{1}, \dots, X_{n}} .

$\min = \min\{X_1,\ldots,X_n\}.$

Eu não calculei o valor esperado do MLE para a média, então não sei qual é o seu viés.

— Michael Hardy
fonte

12

Cagdas, não é legítimo pedir um contra-exemplo e depois negar que você proponha outra coisa! É como pedir um exemplo de uma fruta que não é vermelha, mostrar um mirtilo e dizer que não conta porque você não gosta de mirtilos.

— whuber

7

Isso não é relevante para a pergunta que você fez.

— whuber

8

@CagdasOzgenc: se o MLE é tendencioso ou não, depende do modelo. Não existe MLE sem modelo. E se você alterar o modelo, você altera o MLE.

— Michael Hardy

8

@CagdasOzgenc Aqui está uma pergunta socrática: a média da amostra é um estimador imparcial do quê? Você precisa de um modelo para ter um parâmetro a ser estimado.

— Matthew Drury

9

A média de uma amostra iid é um estimador imparcial da média da população, mas não se pode falar de um estimador de probabilidade máxima de qualquer coisa sem mais estrutura do que o necessário para falar de um estimador imparcial de alguma coisa.

— Michael Hardy

18

Aqui está um exemplo que eu acho que alguns podem achar surpreendente:

Na regressão logística, para qualquer tamanho finito de amostra com resultados não determinísticos (ou seja, ), qualquer coeficiente de regressão estimado não é apenas tendencioso, a média do coeficiente de regressão é realmente indefinida. $0 < p_{i} < 1$

Isso ocorre porque, para qualquer tamanho finito de amostra, existe uma probabilidade positiva (embora muito pequena se o número de amostras for grande comparado ao número de parâmetros de regressão) de obter uma separação perfeita dos resultados. Quando isso acontece, os coeficientes de regressão estimados serão ou . Ter probabilidade positiva de ser $-\infty$ $\infty$ $-\infty$ ou implica o valor esperado é indefinido. $\infty$

Para mais informações sobre esse assunto específico, consulte o efeito Hauck-Donner .

— Cliff AB
fonte

1

Isto é bastante inteligente. Eu me pergunto se o MLE dos coeficientes de regressão logística é condicional e imparcial à não ocorrência do efeito Hauck-Donner?

— gung - Restabelece Monica

3

@gung: Resposta curta: ignorando o efeito Hauck-Donner, ainda existe viés ascendente nos coeficientes de regressão absolutos (ou seja, coeficientes negativos têm viés descendente, positivos têm viés ascendente). Curiosamente, parece haver um viés em direção a 0,5 nas probabilidades estimadas. Comecei a escrever sobre isso neste post , mas ainda não coloquei meus resultados nas tendências das probabilidades estimadas.

— Cliff AB

10

Embora @MichaelHardy tenha argumentado isso, aqui está um argumento mais detalhado sobre por que o MLE do máximo (e, portanto, o da média , por invariância) não é imparcial, embora esteja em um modelo diferente (consulte a edição abaixo). $\theta/2$

Estimamos o limite superior da distribuição uniforme . Aqui, é o MLE, para uma amostra aleatória . Mostramos que não é imparcial. Seu cdf é $U[0,\theta]$ $y_{(n)}$ $y$ $y_{(n)}$ Assim, sua densidade é

\begin{array}{rcl} F_{y_{(n)}} (x) & = & Pr {Y_{1} ⩽ x, \dots, Y_{n} ⩽ x} \\ = & Pr {Y_{1} ⩽ x}^{n} \\ = & {\begin{cases} 0 & for x < 0 \\ {(\frac{x}{θ})}^{n} & for 0 ⩽ x ⩽ θ \\ 1 & for x > θ \end{cases} \end{array}

$\begin{eqnarray*} F_{y_{(n)}}(x)&=&\Pr\{Y_1\leqslant x,\ldots,Y_n\leqslant x\}\\ &=&\Pr\{Y_1\leqslant x\}^n\\ &=&\begin{cases} 0&\qquad\text{for}\quad x<0\\ \left(\frac{x}{\theta}\right)^n&\qquad\text{for}\quad 0\leqslant x\leqslant\theta\\ 1&\qquad\text{for}\quad x>\theta \end{cases} \end{eqnarray*}$

Portanto,

f_{y_{(n)}} (x) = {\begin{cases} \frac{n}{θ} {(\frac{x}{θ})}^{n - 1} & for 0 ⩽ x ⩽ θ \\ 0 & else \end{cases}

$f_{y_{(n)}}(x)= \begin{cases} \frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}&\qquad\text{for}\quad 0\leqslant x\leqslant\theta\\ 0&\qquad\text{else} \end{cases}$

\begin{array}{rcl} E [Y_{(n)}] & = & \int_{0}^{θ} x \frac{n}{θ} {(\frac{x}{θ})}^{n - 1} d x \\ = & \int_{0}^{θ} n {(\frac{x}{θ})}^{n} d x \\ = & \frac{n}{n + 1} θ \end{array}

$\begin{eqnarray*} E[Y_{(n)}]&=&\int_0^\theta x\frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}dx\\ &=&\int_0^\theta n\left(\frac{x}{\theta}\right)^{n}dx\\ &=&\frac{n}{n+1}\theta \end{eqnarray*}$

EDIT: É realmente o caso em que (veja a discussão nos comentários) o MLE é imparcial quanto à média no caso em que o limite inferior e o limite superior são desconhecidos. Então, o mínimo é o MLE para , com (detalhes omitidos) valor esperado $a$ $b$ $Y_{(1)}$ $a$ enquanto

E (Y_{(1)}) = \frac{n a + b}{n + 1}

$E(Y_{(1)})=\frac{na+b}{n+1}$

para que o MLE para

seja

E (Y_{(n)}) = \frac{n b + a}{n + 1}

$E(Y_{(n)})=\frac{nb+a}{n+1}$

(a + b) / 2

$(a+b)/2$

com valor esperado

\frac{Y_{(1)} + Y_{(n)}}{2}

$\frac{Y_{(1)}+Y_{(n)}}{2}$

E (\frac{Y_{(1)} + Y_{(n)}}{2}) = \frac{n a + b + n b + a}{2 (n + 1)} = \frac{a + b}{2}

$E\left(\frac{Y_{(1)}+Y_{(n)}}{2}\right)=\frac{na+b+nb+a}{2(n+1)}=\frac{a+b}{2}$

EDIT 2: Para elaborar o ponto de Henry, aqui está uma pequena simulação para o MSE dos estimadores da média, mostrando que enquanto o MLE, se não sabemos o limite inferior é zero, não é imparcial, os MSEs das duas variantes são idênticos. , sugerindo que o estimador que incorpora o conhecimento do limite inferior reduz a variabilidade.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

— Christoph Hanck
fonte

Porque a Wikipedia está propondo um modelo diferente para começar. É aí que está minha confusão.

— Cagdas Ozgenc

a = 0

$a=0$

(m a x + 0) / 2

$(max+0)/2$

2

Não elaborei os detalhes, mas o MLE nesse modelo pode ser imparcial se o mínimo superestimar o limite inferior pela mesma quantidade que o máximo subestimar o máximo, de modo que o ponto médio seja estimado sem viés.

— Christoph Hanck

4

@CagdasOzgenc: imparcialidade não é a única ou até a mais importante medida de melhor . Ao conhecer com precisão uma extremidade do suporte, você pode perder o equilíbrio entre os erros na estimativa da média, mas acaba tendo (por exemplo) uma estimativa melhor do intervalo

— Henry

6

Os estimadores de probabilidade máxima nem sempre são "melhores" em todos os critérios para amostras pequenas. E daí? Eles também não fingem ser. Se você deseja usar um estimador diferente para o seu problema que possua melhores propriedades, de acordo com algum critério para tamanhos de amostra próximos do tamanho real da amostra, você pode fazê-lo. Eu faço isso e outras pessoas também. Ninguém está afirmando que o uso do MLE é justificado em todas as situações apenas porque é o MLE.

— jbowman

5

Completando aqui a omissão na minha resposta em math.se referenciada pelo OP,

$n$

f_{H} (x) = \sqrt{2 / π} \cdot \frac{1}{v^{1 / 2}} \cdot \exp {- \frac{x^{2}}{2 v}} E (X) = \sqrt{2 / π} \cdot v^{1 / 2} \equiv μ, Var (X) = (1 - \frac{2}{π}) v

$f_H(x) = \sqrt{2/\pi}\cdot \frac 1{v^{1/2}}\cdot \exp\big\{-\frac {x^2}{2v} \big\} \\ E(X) = \sqrt{2/\pi}\cdot v^{1/2}\equiv \mu,\;\; \operatorname{Var}(X) = \left(1-\frac 2 \pi \right)v$

A probabilidade logarítmica da amostra é

L (v ∣ x) = n \ln \sqrt{2 / π} - \frac{n}{2} \ln v - \frac{1}{2 v} \sum_{i = 1}^{n} x_{i}^{2}

$L(v\mid \mathbf x) = n\ln\sqrt{2/\pi}-\frac n2\ln v -\frac 1 {2v} \sum_{i=1}^n x_i^2$

$v$

\frac{\partial}{\partial v} L (v ∣ x) = - \frac{n}{2 v} + \frac{1}{2 v^{2}} \sum_{i = 1}^{n} x_{i}^{2}, ⟹ {\hat{v}}_{MLE} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}

$\frac {\partial}{\partial v}L(v\mid\mathbf x) = -\frac n{2v} + \frac 1 {2v^2} \sum_{i=1}^n x_i^2,\implies \hat v_\text{MLE} = \frac 1n \sum_{i=1}^nx_i^2$

so it is a method of moments estimator. It is unbiased since,

E ({\hat{v}}_{MLE}) = E (X^{2}) = Var (X) + [E (X)])^{2} = (1 - \frac{2}{π}) v + \frac{2}{π} v = v

$E(\hat v_\text{MLE}) = E(X^2) = \operatorname{Var}(X) + [E(X)])^2 = \left(1-\frac 2 \pi \right)v + \frac 2 \pi v = v$

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

\begin{aligned} {\hat{μ}}_{MLE} = \sqrt{2 / π} \cdot \sqrt{{\hat{v}}_{MLE}} ⟹ & E ({\hat{μ}}_{MLE}) = \sqrt{2 / π} \cdot E (\sqrt{{\hat{v}}_{MLE}}) \\ < \sqrt{2 / π} \cdot [\sqrt{E ({\hat{v}}_{MLE})}] = \sqrt{2 / π} \cdot \sqrt{v} = μ \end{aligned}

$\begin{align} \hat \mu_\text{MLE} = \sqrt{2/\pi}\cdot \sqrt {\hat v_\text{MLE}} \implies & E\left(\hat \mu_\text{MLE}\right) = \sqrt{2/\pi}\cdot E\left(\sqrt {\hat v_\text{MLE}}\,\right) \\[6pt] & < \sqrt{2/\pi}\cdot \left[\sqrt {E(\hat v_\text{MLE})}\,\right] = \sqrt{2/\pi}\cdot \sqrt v = \mu \end{align}$

— Alecos Papadopoulos
fonte

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take $(X_i, Y_i) \sim \mathcal{N}\left(\mu_i, \sigma^2 \right)$ . The MLE of $\mu_i$ is $(X_i + Y_i)/2$ and of $\sigma^2$ is $\hat{\sigma}^2 = \sum_{i=1}^n \frac{1}{n} s_i^2$ with $s_i^2 = (X_i - \hat{\mu}_i)^2/2 + (Y_i - \hat{\mu}_i)^2/2 = (X_i - Y_i)^2 / 4$ which has expected value $\sigma^2/4$ and so biased by a factor of 2.

— AdamO
fonte

2

While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that

k / n \to 0

$k / n \rightarrow 0$ , where

k

$k$ is the number of parameters estimated and

n

$n$ is the sample size.

— Cliff AB

1

@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of

Θ

$\Theta$ goes to

\infty

$\infty$ as

n \to \infty

$n \rightarrow \infty$ . I think that's what you're saying, but don't know what

k

$k$ means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate

σ

$\sigma$ in this case.

— AdamO

3

There is an infinite range of examples for this phenomenon since

the maximum likelihood estimator of a bijective transform $\Psi(\theta)$ of a parameter $\theta$ is the bijective transform of the maximum likelihood estimator of $\theta$ , $\Psi(\hat{\theta}_\text{MLE})$ ;
the expectation of the bijective transform of the maximum likelihood estimator of $\theta$ , $\Psi(\hat{\theta}_\text{MLE})$ , $\mathbb{E}[\Psi(\hat{\theta}_\text{MLE})]$ is not the bijective transform of the expectation of the maximum likelihood estimator, $\Psi(\mathbb{E}[\hat{\theta}_\text{MLE}])$ ;
most transforms $\Psi(\theta)$ are expectations of some transform of the data, $\mathfrak{h}(X)$ , at least for exponential families, provided an inverse Laplace transform can be applied to them.

— Xi'an
fonte