Por que o MLE faz sentido, dada a probabilidade de uma amostra individual ser 0?

Esse é um pensamento estranho que eu tive ao revisar algumas estatísticas antigas e, por algum motivo, não consigo pensar na resposta.

Um PDF contínuo nos diz a densidade dos valores observados em um determinado intervalo. Ou seja, se , por exemplo, a probabilidade de uma realização cair entre e é simplesmente onde é o densidade do padrão normal. $X \sim N(\mu,\sigma^2)$ $a$ $b$ $\int_a^{b}\phi(x)dx$ $\phi$

Quando pensamos em fazer uma estimativa MLE de um parâmetro, digamos, , escrevemos a densidade conjunta de, digamos , variáveis aleatórias e diferenciamos o log-verossimilhança em , defina igual a 0 e resolva para . A interpretação frequentemente dada é "dados os dados, parâmetro que torna essa função de densidade mais plausível". $\mu$ $N$ $X_1 .. X_N$ $\mu$ $\mu$

A parte que está me incomodando é a seguinte: temos uma densidade de $N$ rv e a probabilidade de obtermos uma realização específica, digamos, nossa amostra, é exatamente 0. Por que faz sentido maximizar a densidade da articulação, dados nossos dados ( mais uma vez, a probabilidade de observar nossa amostra real é exatamente 0)?

A única racionalização que eu pude sugerir é que queremos que o PDF seja o mais alto possível em torno de nossa amostra observada, de modo que a integral na região (e, portanto, a probabilidade de observar coisas nessa região) seja mais alta.

normal-distribution maximum-likelihood pdf

— Alex
fonte

Pela mesma razão, usamos densidades de probabilidade stats.stackexchange.com/q/4220/35989

— Tim

Entendo (acho) por que faz sentido usar densidades. O que não entendo é por que faz sentido maximizar uma densidade condicionada à observação de uma amostra que tem 0 probabilidade de ocorrência.

— Alex #

Porque as densidades de probabilidade nos dizem quais valores são relativamente mais prováveis que outros.

— Tim

Se você tiver tempo para responder completamente à pergunta, acho que seria mais útil para mim e para a próxima pessoa.

— Alex #

Porque, felizmente, a probabilidade não é uma probabilidade!

— Adamo

$\mathbb{P}_\theta(X=x)$ $x$ $\delta$ $\delta$

$\qquad\qquad\qquad$

$\delta$

Embora ele estivesse sob a denominação de "valor mais provável" e usasse um princípio de probabilidade inversa (inferência bayesiana) com um plano anterior, Carl Friedrich Gauß já havia obtido em 1809 um estimador de probabilidade máxima para o parâmetro de variância de uma distribuição Normal. Hald (1999) menciona várias outras ocorrências de estimadores de máxima verossimilhança antes do artigo de Fisher de 1912, que estabelece o princípio geral.

$(x_1,\ldots,x_n)$

\frac{1}{n} \sum_{i = 1}^{n} \log f_{θ} (x_{i})

$\frac{1}{n} \sum_{i=1}^n \log f_\theta(x_i)$

E [\log f_{θ} (X)] = \int registro f_{θ} (x) f_{0 0} (x) d x

$\mathbb{E}[\log f_\theta(X)]=\int \log f_\theta(x)\,f_0(x)\,\text{d}x$

f_{0}

$f_0$

θ

$\theta$

θ

$\theta$

\int \log \frac{f_{0} (x)}{f_{θ} (x)} f_{0} (x) d x = \underset{constant in θ}{\underset{⏟}{\int \log f_{0} (x) f_{0} (x) d x}} - \int \log f_{θ} (x) f_{0} (x) d x

$\int \log \dfrac{f_0(x)}{f_\theta(x)}\, f_0(x)\,\text{d}x=\underbrace{\int \log f_0(x)\,f_0(x)\,\text{d}x}_{\text{constant}\\\text{in }\theta}-\int \log f_\theta(x)\,f_0(x)\,\text{d}x$

f_{θ}

$f_\theta$

— Xi'an
fonte

Obrigado pela resposta. Você poderia expandir um pouco o argumento KL? Não estou vendo como é esse o caso imediatamente.

— Alex