Nós sempre usamos a estimativa de probabilidade máxima?

14

Gostaria de saber se a estimativa de máxima probabilidade já foi usada em estatística. Aprendemos o conceito, mas me pergunto quando é realmente usado. Se assumirmos a distribuição dos dados, encontraremos dois parâmetros, um para a média e outro para a variação, mas você realmente os usa em situações reais?

Alguém pode me dizer um caso simples em que é usado?

estimation maximum-likelihood

— user122358
fonte

33

É

método de estimativa mais prevalente.

the

$\textit{the}$

— JohnK

3

Eu estava tentando perguntar quando não estamos usando o MLE

— Haitao Du

4

regressão logística. Regressão de Poisson. OLS é o MLE quando os erros são considerados normais. Regressão gama. Qualquer GLM clássico realmente. Estimando a média de uma população normal. Estimando a probabilidade de sucesso de uma série de testes binomiais. Estimando a taxa de eventos de poisson. Eu poderia continuar ...

— GoF_Logistic 14/03

4

Essa pesquisa muito restrita do nosso site produz centenas de exemplos de usos reais.

— whuber

6

@ hxd1011 Você não está usando o MLE quando não está usando seus métodos para obter variações de estimativas ou calcular intervalos de confiança, previsão ou tolerância, por exemplo, mesmo quando o estimador que você está usando pode estar de acordo com o estimador do MLE. Por exemplo, você não está usando o MLE ao executar qualquer teste t. Geralmente, você não o usa quando aplica estimadores imparciais. Filosoficamente, você não usaria o MLE quando se preocupasse com uma função de perda ou se tivesse uma distribuição prévia.

— whuber

25

Gostaria de saber se a estimativa de máxima probabilidade já foi usada em estatística.

Certamente! Na verdade, bastante - mas nem sempre.

Aprendemos o conceito, mas me pergunto quando é realmente usado.

Quando as pessoas têm um modelo distributivo paramétrico, geralmente escolhem usar a estimativa da máxima verossimilhança. Quando o modelo está correto, há várias propriedades úteis dos estimadores de probabilidade máxima.

Por um exemplo - o uso de modelos lineares generalizados é bastante difundido e, nesse caso, os parâmetros que descrevem a média são estimados por máxima verossimilhança.

Pode acontecer que alguns parâmetros sejam estimados pela máxima probabilidade e outros não. Por exemplo, considere um Poisson GLM super-disperso - o parâmetro de dispersão não será estimado pela máxima probabilidade, porque o MLE não é útil nesse caso.

Se assumirmos a distribuição dos dados, encontraremos dois parâmetros

Bem, às vezes você pode ter dois, mas às vezes você tem um parâmetro, às vezes três ou quatro ou mais.

um para a média e outro para a variância,

Você está pensando em um modelo específico, talvez? Isso não é sempre o caso. Considere estimar o parâmetro de uma distribuição exponencial ou Poisson ou distribuição binomial. Em cada um desses casos, há um parâmetro e a variação é uma função do parâmetro que descreve a média.

Ou considere uma distribuição gama generalizada , que possui três parâmetros. Ou uma distribuição beta de quatro parâmetros , que possui (talvez sem surpresa) quatro parâmetros. Observe também que (dependendo da parametrização específica) a média ou a variância ou ambas podem não ser representadas por um único parâmetro, mas pelas funções de vários deles.

Por exemplo, a distribuição gama, para a qual existem três parametrizações que vêem uso bastante comum - as duas mais comuns têm a média e a variância sendo funções de dois parâmetros.

Normalmente, em um modelo de regressão ou GLM ou em um modelo de sobrevivência (entre muitos outros tipos de modelo), o modelo pode depender de vários preditores; nesse caso, a distribuição associada a cada observação no modelo pode ter um de seu próprio parâmetro (ou até vários parâmetros) relacionados a muitas variáveis preditoras ("variáveis independentes").

— Glen_b -Reinstate Monica
fonte

5

"Quando as pessoas têm um modelo distributivo paramétrico". Não se esqueça da estimativa de probabilidade máxima não paramétrica, para incluir a probabilidade empírica.

— Mark L. Stone

3

@ Mark Relativamente mais raro, no entanto. Vou adicionar uma palavra à minha resposta.

— Glen_b -Reinstate Monica

Podemos usar a estimativa de probabilidade máxima, mesmo assumindo que a distribuição, por exemplo, seja normal? Acho que não precisamos, mas ainda podemos usá-lo, estou certo?

— user122358

@ user122358 Glen e Mark já lhe responderam. Você pode assumir uma distribuição ou não. Na maioria das vezes, você assume uma distribuição e, portanto, uma função de probabilidade.

— HelloWorld 14/03

3

"Quando as pessoas têm um modelo distributivo paramétrico". Não se esqueça da estimativa de probabilidade máxima semi-paramétrica, para incluir a probabilidade parcial. ;)

— Scortchi - Reinstate Monica

8

Embora os estimadores de maximizar a probabilidade possam parecer suspeitos, considerando as suposições sobre a distribuição de dados, os estimadores de máxima probabilidade quase máxima são frequentemente usados. A idéia é começar assumindo uma distribuição e resolver o MLE, depois remover a suposição distributiva explícita e, em vez disso, ver como o seu estimador se sai em condições mais gerais. Portanto, o Quasi MLE se torna uma maneira inteligente de obter um estimador, e a maior parte do trabalho está derivando as propriedades do estimador. Como as premissas distributivas são descartadas, o MLE quase normalmente não possui as boas propriedades de eficiência.

$x_1, x_2, ..., x_n$ $X$ $X \sim N (\mu, \sigma^2)$ $\hat\sigma^2 = n^{-1}\sum (x_i - \bar x)^2$ $\hat\sigma^2$

— Igor
fonte

Além disso, você pode verificar esta discussão sobre a intuição por trás do Quasi MLE.

— Richard Hardy

5

A estimativa de probabilidade máxima é freqüentemente usada no aprendizado de máquina para treinar:

redes neurais, por exemplo, podemos usar o MLE para estimar pesos da rede neural?
regressão logística linear e regressão logística multiclasse, por exemplo, por que os coeficientes de regressão linear e logística não podem ser estimados usando o mesmo método?
campo aleatório condicional (CRF), por exemplo, https://www.coursera.org/learn/probabilistic-graphical-models-3-learning/lecture/oKJ1x/maximum-likelihood-for-conditional-random-fields
modelo Markov oculto (HMM), por exemplo, https://en.wikipedia.org/w/index.php?title=Hidden_Markov_model&oldid=768811108#Learning

Observe que, em alguns casos, prefere-se adicionar alguma regularização, que às vezes é equivalente à estimativa máxima a posteriori , por exemplo, por que a penalidade de Lasso é equivalente à dupla exponencial (Laplace) antes? .

— Franck Dernoncourt
fonte

3

Alguém pode me dizer um caso simples em que é usado?

Um caso muito típico está em regressão logística. A regressão logística é uma técnica usada frequentemente no aprendizado de máquina para classificar pontos de dados. Por exemplo, a regressão logística pode ser usada para classificar se um email é spam ou não é spam ou classificar se uma pessoa tem ou não uma doença.

$x_i$ $h_\theta(x_i) = P[y_i = 1] = \frac{1}{1+e^{-\theta^T x_i}}$

$\theta$

$\hat\theta$ $-\sum_{i=1}^n y_i\log(h_\hat\theta(x_i)) + (1-y_i)\log(1-h_{\hat\theta}(x_i))$

— user35734
fonte

1

Estamos usando o MLE o tempo todo, mas podemos não sentir isso. Vou dar dois exemplos simples para mostrar.

Exemplo 1

$8$ $10$ $\theta$ $\theta=0.8$

Por que usar a contagem? na verdade, isso está implicitamente usando o MLE! Onde está o problema

\underset{θ}{Maximize} θ^{8} (1 - θ)^{2}

$\underset \theta {\text{Maximize}}~~~\theta^{8}(1-\theta)^{2}$

Para resolver a equação, precisaremos de algum cálculo, mas a conclusão está contando.

Exemplo 2

Como estimamos parâmetros de distribuição gaussiana a partir de dados? Usamos a média empírica como média estimada e a variação empírica como variação estimada, que também é proveniente do MLE !.

— Haitao Du
fonte

6

O exemplo 1 também é uma solução Bayes e um método de momentos (MM) (e provavelmente é a solução usando outros procedimentos também). O exemplo 2 é a solução MM. Seria muito mais convincente exibir procedimentos que são exclusivamente MLE - pois, caso contrário, nunca seria necessário.

— whuber

Por que o exemplo 1 se torna uma solução Bayes e o Exemplo 2 se torna a solução MM? O que é MM, a propósito?

— user122358

@ user122358 MM é o método dos momentos. Veja aqui, por exemplo: en.wikipedia.org/wiki/Method_of_moments_(statistics)

— jld

0

Alguns usos máximos de probabilidade na comunicação sem fio:

Decodificação de dados digitais de sinais recebidos com ruído, com ou sem códigos redundantes.
Estimativa de compensações de tempo, fase e frequência nos receptores.
Estimativa do (parâmetros do) canal de propagação.
Estimativa de atraso, ângulo de chegada e desvio Doppler (por exemplo, radar).
Estimativa de uma posição móvel (por exemplo, GPS).
Estimativa de compensações de relógio para sincronização de todos os tipos de configurações distribuídas.
Uma infinidade de procedimentos de calibração.

— GDumphart
fonte