MAP é uma solução para

10

Encontrei esses slides (slides 16 e 17) em um dos cursos on-line. O instrutor estava tentando explicar como a Estimativa Máxima Posterior (PAM) é realmente a solução , onde é o verdadeiro parâmetro. $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ $\theta^{*}$

Alguém pode explicar como isso se segue?

Editar: Adicionado os slides, caso o link seja quebrado.

— honeybadger
fonte

3

Ao analisar os slides que você compartilhou, parece-me que a idéia é explicar como a estimativa do MAP pode ser usada para estimar diferentes propriedades do posterior, como média, modo e mediana. Tentarei explicar isso no contexto dos Estimadores Bayesianos Gerais, conforme apresentado no livro de Stephen M. Kay, Fundamentos do Processamento Estatístico de Sinais .

Vamos começar considerando três tipos de risco (funções de custo) associadas à estimativa do parâmetro : $\theta$

$C(e) = e^2$

$C(e) = |e|$

$if -\delta < e < \delta, C(e)=0$ ; mais $C(e)=1$

onde, , em que é o valor estimado e é o parâmetro true. Na estimativa bayesiana, o objetivo é minimizar o risco esperado, ou seja: $e = \theta - \hat{\theta}$ $\hat{\theta}$ $\theta$

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

já que nos preocupamos apenas com , focaremos na integral interna . $\theta$ $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$

Agora, dependendo de qual escolhermos, o estimador nos dará uma propriedade diferente do posterior. Por exemplo, se escolhermos o primeiro caso, , o minimizador para é a média. Como sua pergunta é em relação à função do indicador , abordarei o terceiro risco mencionado acima (que, se você pensar nisso para é equivalente para usar o indicador). $C(e)$ $C(e) = e^2$ $\theta$ $\int_\theta C(e)p(\theta|X)d\theta$ $I[\hat{\theta}\ne \theta]$ $\delta\rightarrow 0$

Para o caso 3 acima:

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

que para é minimizado quando corresponde ao modo do posterior. $\delta \rightarrow 0$ $\hat{\theta}$

— idnavid
fonte

2

Obrigado pela maravilhosa explicação. Além disso, os leitores do futuro pode ler sobre o mesmo em um livro semelhante: Capítulo 5 de Machine_Learning uma perspectiva probabilística por Kevin Murphy

— honeybadger

Você poderia especificar os detalhes desse argumento limitador em ? Você quer dizer o limite do procedimento quando chega a zero ou o limite da perda posterior?

δ

$\delta$

δ

$\delta$

— Xian

Estou me referindo ao limite da expectativa .

E [C (e)]

$E[C(e)]$

— Idnavid 7/10/19

10

No caso específico, o espaço de parâmetro é finito ou infinitamente contável a perda posterior associada à perda do indicador é igual à probabilidade de estar errada e é minimizado quando a probabilidade posterior de estar correta é maximizada. Isso significa que é o modo da distribuição posterior ou do MAP. $\Theta$

Θ = {θ_{1}, θ_{2}, \dots}

$\Theta=\{\theta_1,\theta_2,\ldots\}$

P (\hat{θ} \neq θ | x)

$\mathbb{P}(\hat{\theta}\ne\theta|x)$

P (\hat{θ} = θ | x)

$\mathbb{P}(\hat{\theta}=\theta|x)$

\hat{θ}

$\hat{\theta}$

No entanto, essa associação de MAP e perda de é um "teorema popular", pois é incorreto na maioria das configurações, ou seja, não se aplica a espaços de parâmetros contínuos onde para todos os e conflita ainda mais com os resultados de Druihlet e Marin (BA, 2007), que apontam que o MAP depende, em última análise, da escolha da medida dominante. (Embora a medida de Lebesgue seja implicitamente escolhida como padrão). $0-1$ $\mathbb{P}(\hat{\theta}=\theta|x)=0$ $\hat{\theta}$

Por exemplo, Evans e Jang publicaram um artigo do arXiv em 2011, onde discutiam a conexão entre MAP, estimadores de menor surpresa relativa (ou probabilidade máxima de perfil) e funções de perda. O cerne da questão é que nem os estimadores de PAM, nem os MLEs são realmente justificados por uma abordagem teórica da decisão, pelo menos em um espaço contínuo de parâmetros. E que a medida dominante [arbitrariamente] escolhida no espaço de parâmetros afeta o valor do MAP, como demonstrado por Druihlet e Marin em 2007. Eles começam no caso finito com a função de perda

L (θ, d) = I {Ψ (θ) \neq d) / π_{Ψ} (Ψ (θ))

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta))$ onde eles consideram a estimativa da transformação Ψ (θ) por d, inversamente ponderada pelo marginal anterior a essa transformação. No caso especial da transformação de identidade, essa função de perda leva ao MLE como estimador de Bayes. No caso geral, o estimador Bayes é o estimador de probabilidade máxima de perfil (LRSE). No entanto, essa função de perda não generaliza para espaços de parâmetros contidos infinitamente (e obviamente contínuos) e, nessas configurações, os autores podem fornecer apenas LRSEs como limites dos procedimentos de Bayes. A função de perda adotada no caso contável é, por exemplo,

L (θ, d) = I {Ψ (θ) \neq d} / max {η, π_{Ψ} (Ψ (θ))}

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\}$ com o limite diminuindo para zero. No caso contínuo, o indicador não funciona mais, portanto, a escolha feita pelos autores é discretizar o espaço Ψ (Θ) por uma escolha específica de uma partição de bolas cujos diâmetros λ vão a zero. No espírito de Druihlet e Marin, essa escolha depende de uma métrica (e de outras condições de regularidade). Além disso, o próprio LRSE depende da versão escolhida para as densidades (se não na medida dominante), a menos que uma impõe em todos os lugares a igualdade de Bayes todos os lugares, quando e

max_{ψ} π_{ψ} (ψ | x) / π_{ψ} (θ)

$\max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta)$

π_{ψ} (ψ | x) / π_{ψ} (θ) = f (x | ψ) / m (x)

$\pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x)$

f (x | ψ) = \int_{{θ; Ψ (θ) = ψ}} f (x | θ) π (θ) d θ

$f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta$

m (x) = \int f (x | θ) π (θ) d θ

$m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta$ no espírito de nosso artigo sobre o paradoxo de Savage-Dickey .

Robert Bassett e Julio Deride publicaram um artigo em 2016 discutindo a posição dos MAPs na teoria da decisão bayesiana.

"... fornecemos um contra-exemplo à noção comumente aceita de estimadores de MAP como um limite de estimadores de Bayes com perda de 0-1".

Os autores mencionam meu livro The Bayesian Choice afirmando essa propriedade sem outras precauções e eu concordo completamente em ser descuidado a esse respeito! A dificuldade está no fato de o limite dos maximizadores não ser necessariamente o maximizador do limite. O artigo inclui um exemplo para esse efeito, com um anterior como acima, associado a uma distribuição de amostragem que não depende do parâmetro. As condições suficientes propostas são que a densidade posterior seja quase certamente adequada ou quase côncava.

Veja também uma caracterização alternativa dos estimadores de MAP por Burger e Lucka como estimadores adequados de Bayes sob outro tipo de função de perda , ainda que artificial. Os autores deste artigo publicado começam com uma distância baseada no anterior; chamada distância Bregman, que pode ser a distância quadrática ou a entropia, dependendo do anterior. Definindo uma função de perda que é uma mistura dessa distância de Bregman e da distância quadrática

| | K (\hat{u} - u) | |^{2} + 2 D_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ produz o MAP como estimador de Bayes. Ainda se pode perguntar sobre a medida dominante, mas tanto a função de perda quanto o estimador resultante são claramente dependentes da escolha da medida dominante ... (A perda depende do anterior, mas isso não é uma desvantagem per se)

— Xi'an
fonte

1

Vou dar o resumo do texto mencionado sobre esse problema no Capítulo 5, Estatísticas Bayesianas, Aprendizado de Máquina: Uma perspectiva probabilística - de Murphy .

Digamos que observamos alguns dados e queremos comentar sobre a distribuição posterior dos parâmetros . Agora, a estimativa pontual do modo dessa distribuição posterior, que é amplamente conhecida como MAP, tem algumas desvantagens. $X$ $p(\theta|X)$

Diferentemente da média ou mediana, esse é um ponto 'atípico', no sentido de que não considera todos os outros pontos enquanto está sendo estimado. No caso de estimar a média / mediana, levamos em consideração todos os outros pontos.

Assim, como esperado, em distribuições posteriores altamente distorcidas, o MAP (e, por extensão, o MLE) não representa verdadeiramente o realmente posterior.

Então, como resumimos um posterior usando uma estimativa pontual como Média / Mediana / Modo?

É aqui que as pessoas usam a teoria da decisão - essencialmente uma função de perda que é a perda em que se incorre se a verdade é e é nossa estimativa. Podemos escolher uma variedade de funções de perda e nosso objetivo aqui é minimizar o valor esperado da função de perda. $L(\theta, \hat{\theta})$ $\theta$ $\hat{\theta}$

Se a função Perda estiver configurada como , uma função Indicadora para todos os momentos em que NÃO PODEMOS estimar a verdade e, em seguida, minimizar o valor esperado da função de perda wrt é igual a Maximizar esta função wrt . A partir disso, é intuitivo adivinhar que o modo Posterior minimiza o valor esperado da função de perda. Os detalhes deste cálculo podem ser vistos na resposta acima . $L(\theta, \hat{\theta})$ $\mathbb{I}(\hat{\theta}\ne\theta|x)$ $\theta$ $\mathbb{I}(\hat{\theta}=\theta|x)$ $\theta$

— honeybadger
fonte