Qual é a diferença na estimativa bayesiana e na estimativa de máxima verossimilhança?

Por favor, explique-me a diferença entre a estimativa bayesiana e a estimativa de máxima verossimilhança?

bayesian maximum-likelihood

— triunfo
fonte

Depende do tipo de estimativa bayesiana. MAPA? Média posterior? O resultado de minimizar o risco de Bayes para alguma função de perda? Cada um dos itens acima? Algo mais?

— Glen_b

Eu respondi a esta pergunta, ou um análogo, aqui. stats.stackexchange.com/questions/73439/… Que problemas você está tendo para entender os dois? Mais detalhes nos ajudarão a dar uma resposta melhor.

— Reponha Monica

No manual de referência do STAN: "Se o prior for uniforme, o modo posterior corresponderá à estimativa de máxima verossimilhança (MLE) dos parâmetros. Se o prior não for uniforme, o modo posterior às vezes será chamado de estimativa de máximo a posterior (MAP). "

— Neerav

@ Neerav, essa é a resposta que eu precisava. thx

— javadba 26/11

Uma resposta possivelmente útil para o caso específico da estimativa bayesiana máxima a posteriori é dada aqui .

— Pglpm # 28/18

Respostas:

É uma pergunta muito ampla e minha resposta aqui começa apenas a arranhar um pouco a superfície. Usarei a regra de Bayes para explicar os conceitos.

Vamos supor que um conjunto de parâmetros de distribuição de probabilidade, , explica melhor o conjunto de dados . Podemos desejar estimar os parâmetros com a ajuda da Regra de Bayes: $\theta$ $D$ $\theta$

p (θ | D) = \frac{p (D | θ) * p (θ)}{p (D)}

$p(\theta|D)=\frac{p(D|\theta) * p(\theta)}{p(D)}$

p o s t e r Eu o r = \frac{eu Eu k e eu Eu h o o d * p r Eu o r}{e v Eu d e n c e}

$posterior = \frac{likelihood * prior}{evidence}$

As explicações a seguir:

Estimativa de máxima verossimilhança

Com o MLE, buscamos um valor de ponto para que maximize a probabilidade, , mostrado nas equações acima. Nós podemos denotar esse valor como . Em é uma estimativa pontual, não uma variável aleatória. $\theta$ $p(D|\theta)$ $\hat{\theta}$ $\hat{\theta}$

Em outras palavras, na equação acima, MLE trata o termo como uma constante e NÃO nos permite injetar nossas crenças anteriores,, sobre os valores prováveis denos cálculos de estimativa. $\frac{p(\theta)}{p(D)}$ $p(\theta)$ $\theta$

Estimativa Bayesiana

A estimativa bayesiana, por outro lado, calcula completamente (ou às vezes se aproxima) a distribuição posterior . A inferência bayesiana trata como uma variável aleatória. Na estimativa bayesiana, colocamos funções de densidade de probabilidade e obtemos funções de densidade de probabilidade, em vez de um único ponto como no MLE. $p(\theta|D)$ $\theta$

De todos os valores de possibilitados pela distribuição de saída , é nosso trabalho selecionar um valor que consideremos melhor em algum sentido. Por exemplo, podemos escolher o valor esperado de assumindo que sua variação seja pequena o suficiente. A variação que podemos calcular para o parâmetro partir de sua distribuição posterior nos permite expressar nossa confiança em qualquer valor específico que possamos usar como estimativa. Se a variação for muito grande, podemos declarar que não existe uma boa estimativa para . $\theta$ $p(\theta|D)$ $\theta$ $\theta$ $\theta$

Como contrapartida, a estimativa bayesiana é complexa pelo fato de que agora temos que lidar com o denominador na regra de Bayes, ou seja, . Aqui a evidência - ou probabilidade de evidência - é representada por: $evidence$

p (D) = \int_{θ} p (D | θ) * p (θ) d θ

$p(D) = \int_{\theta} p(D|\theta) * p(\theta) d\theta$

Isso leva ao conceito de 'prioros conjugados' na estimativa bayesiana. Para uma determinada função de probabilidade, se tivermos uma escolha a respeito de como expressamos nossas crenças anteriores, devemos usar esse formulário que nos permita realizar a integração mostrada acima. A idéia de conjugados anteriores e como eles são praticamente implementados é explicada muito bem neste post pelo COOlSerdash.

— Zhubarb
fonte

Você elaboraria mais sobre isso? : "o denominador na regra de Bayes, ou seja, evidência."

— Daniel

Eu estendi minha resposta.

— Zhubarb

@Berkan na equação aqui, P (D | theta) é probabilidade. No entanto, a função de probabilidade é definida como P (theta | D), que é a função do parâmetro, dados dados. Estou sempre confuso sobre isso. O termo probabilidade está se referindo a coisas diferentes aqui? Você poderia elaborar sobre isso? Muito obrigado!

— zesla

@zesla se meu entendimento estiver correto, P (theta | D) não é a probabilidade - é a posterior. Ou seja, a distribuição de teta depende da fonte de dados da qual você tem amostras. A probabilidade é como você disse: P (D | teta) - a distribuição de seus dados conforme parametrizado por teta, ou, talvez, de maneira mais intuitiva, a “probabilidade de ver o que você vê” como uma função de teta. Isso faz sentido? Todos os outros: por favor, corrijam-me onde estou errado.

— Grisaitis #

@zesla, a explicação dada pela grisaite está correta.

— Zhubarb 01/08/19

Eu acho que você está falando sobre estimativa de pontos como na inferência paramétrica, para que possamos assumir um modelo de probabilidade paramétrica para um mecanismo de geração de dados, mas o valor real do parâmetro é desconhecido.

A estimativa de probabilidade máxima refere-se ao uso de um modelo de probabilidade para dados e à otimização da função de probabilidade conjunta dos dados observados em um ou mais parâmetros. Portanto, é visto que os parâmetros estimados são mais consistentes com os dados observados em relação a qualquer outro parâmetro no espaço de parâmetros. Observe que essas funções de probabilidade não são necessariamente vistas como "condicionadas" aos parâmetros, pois os parâmetros não são variáveis aleatórias; portanto, é um pouco mais sofisticado conceber a probabilidade de vários resultados comparando duas parametrizações diferentes. Acontece que esta é uma abordagem filosoficamente sólida.

A estimativa bayesiana é um pouco mais geral, porque não estamos maximizando necessariamente o análogo bayesiano da probabilidade (a densidade posterior). No entanto, o tipo de estimativa análoga (ou estimativa de modo posterior) é vista como maximização da probabilidade do parâmetro posterior condicional aos dados. Geralmente, as estimativas de Bayes obtidas dessa maneira se comportam quase exatamente como as de ML. A principal diferença é que a inferência de Bayes permite que um método explícito incorpore informações anteriores.

Também 'A História Épica de Máxima Verossimilhança contribui para uma leitura esclarecedora

http://arxiv.org/pdf/0804.2996.pdf

— AdamO
fonte

Você elaboraria mais sobre isso? "No entanto, o tipo de estimativa análoga (ou estimativa de modo posterior) é vista como maximização da probabilidade do parâmetro posterior condicional aos dados".

— Daniel

O modo posterior é um pouco inadequado, porque, com DFs contínuos, o valor é bem definido. As densidades posteriores estão relacionadas à probabilidade no caso freqüentista, exceto que ele permite simular parâmetros da densidade posterior. Curiosamente, alguém pensa intuitivamente na "média posterior" como sendo a melhor estimativa pontual do parâmetro. Essa abordagem geralmente é feita e, para densidades unimodais simétricas, isso produz intervalos válidos e confiáveis que são consistentes com o ML. O modo posterior é apenas o valor do parâmetro no ápice da densidade posterior.

— Adamo

Sobre "isso produz intervalos credíveis válidos que são consistentes com o ML".: Depende realmente do modelo, certo? Eles podem ser consistente ou não ...

— Daniel

A questão das premissas paramétricas subjacentes motiva uma discussão sobre inferência totalmente paramétrica vs. semi-paramétrica ou não -paramétrica . Essa não é uma questão ML vs Bayesiana e você não é o primeiro a cometer esse erro. O ML é uma abordagem totalmente paramétrica, que permite estimar algumas coisas que SP ou NP não podem (e geralmente com mais eficiência quando podem). Especificar corretamente o modelo de probabilidade no ML é exatamente como escolher as propriedades corretas anteriores e todas as propriedades de robustez (e questões de sensibilidade) que isso implica.

— 30913 AdamOu

Aliás, seus comentários acenderam essa pergunta em minha mente. Algum comentário sobre isso? stats.stackexchange.com/questions/74164/…

— Daniel

A estimativa bayesiana é a inferência bayesiana, enquanto o MLE é um tipo de métodos de inferência freqüentista.

$f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ $likelihood = \frac{posterior * evidence}{prior}$ $p(\theta) = 1/6$

A alternativa do MLE na inferência bayesiana é chamada de estimativa máxima a posteriori (MAP para abreviar) e, na verdade, o MLE é um caso especial de MAP onde o prior é uniforme, como vemos acima e como indicado na Wikipedia :

Do ponto de vista da inferência bayesiana, o MLE é um caso especial de estimativa máxima a posteriori (PAM) que assume uma distribuição prévia uniforme dos parâmetros.

Para detalhes, consulte este artigo incrível: MLE vs MAP: a conexão entre Máxima Verossimilhança e Máxima Estimação Posteriori .

E mais uma diferença é que a probabilidade máxima é propensa ao excesso de ajuste, mas se você adotar a abordagem bayesiana, o problema do excesso de ajuste pode ser evitado.

— Lerner Zhang
fonte

Uma das coisas legais sobre Bayes é que você não é obrigado a calcular nenhuma estimativa pontual. Toda a densidade posterior pode ser sua "estimativa".

— Frank Harrell

@FrankHarrell Prezado professor Harrell, você poderia me ajudar a editar a resposta se eu cometesse alguns erros terríveis em algum lugar? Muito obrigado!

— Lerner Zhang

Não quis dizer que você cometeu um erro.

— Frank Harrell

@ lerner: quero advertir contra a identificação da estimativa de probabilidade máxima como um caso particular da estimativa de máxima a posteriori (quando o prior é constante): veja o porquê nesta resposta .

— Pglpm