Encontrei esses slides (slides 16 e 17) em um dos cursos on-line. O instrutor estava tentando explicar como a Estimativa Máxima Posterior (PAM) é realmente a solução , onde é o verdadeiro parâmetro.
Alguém pode explicar como isso se segue?
Encontrei esses slides (slides 16 e 17) em um dos cursos on-line. O instrutor estava tentando explicar como a Estimativa Máxima Posterior (PAM) é realmente a solução , onde é o verdadeiro parâmetro.
Alguém pode explicar como isso se segue?
Respostas:
Ao analisar os slides que você compartilhou, parece-me que a idéia é explicar como a estimativa do MAP pode ser usada para estimar diferentes propriedades do posterior, como média, modo e mediana. Tentarei explicar isso no contexto dos Estimadores Bayesianos Gerais, conforme apresentado no livro de Stephen M. Kay, Fundamentos do Processamento Estatístico de Sinais .
Vamos começar considerando três tipos de risco (funções de custo) associadas à estimativa do parâmetro :
- ; mais
onde, , em que é o valor estimado e é o parâmetro true. Na estimativa bayesiana, o objetivo é minimizar o risco esperado, ou seja:
já que nos preocupamos apenas com , focaremos na integral interna .
Agora, dependendo de qual escolhermos, o estimador nos dará uma propriedade diferente do posterior. Por exemplo, se escolhermos o primeiro caso, , o minimizador para é a média. Como sua pergunta é em relação à função do indicador , abordarei o terceiro risco mencionado acima (que, se você pensar nisso para é equivalente para usar o indicador).
Para o caso 3 acima:
que para é minimizado quando corresponde ao modo do posterior.
No caso específico, o espaço de parâmetro é finito ou infinitamente contável a perda posterior associada à perda do indicador é igual à probabilidade de estar errada e é minimizado quando a probabilidade posterior de estar correta é maximizada. Isso significa que é o modo da distribuição posterior ou do MAP.
No entanto, essa associação de MAP e perda de é um "teorema popular", pois é incorreto na maioria das configurações, ou seja, não se aplica a espaços de parâmetros contínuos onde para todos os e conflita ainda mais com os resultados de Druihlet e Marin (BA, 2007), que apontam que o MAP depende, em última análise, da escolha da medida dominante. (Embora a medida de Lebesgue seja implicitamente escolhida como padrão).
Por exemplo, Evans e Jang publicaram um artigo do arXiv em 2011, onde discutiam a conexão entre MAP, estimadores de menor surpresa relativa (ou probabilidade máxima de perfil) e funções de perda. O cerne da questão é que nem os estimadores de PAM, nem os MLEs são realmente justificados por uma abordagem teórica da decisão, pelo menos em um espaço contínuo de parâmetros. E que a medida dominante [arbitrariamente] escolhida no espaço de parâmetros afeta o valor do MAP, como demonstrado por Druihlet e Marin em 2007. Eles começam no caso finito com a função de perda
Robert Bassett e Julio Deride publicaram um artigo em 2016 discutindo a posição dos MAPs na teoria da decisão bayesiana.
"... fornecemos um contra-exemplo à noção comumente aceita de estimadores de MAP como um limite de estimadores de Bayes com perda de 0-1".
Os autores mencionam meu livro The Bayesian Choice afirmando essa propriedade sem outras precauções e eu concordo completamente em ser descuidado a esse respeito! A dificuldade está no fato de o limite dos maximizadores não ser necessariamente o maximizador do limite. O artigo inclui um exemplo para esse efeito, com um anterior como acima, associado a uma distribuição de amostragem que não depende do parâmetro. As condições suficientes propostas são que a densidade posterior seja quase certamente adequada ou quase côncava.
Veja também uma caracterização alternativa dos estimadores de MAP por Burger e Lucka como estimadores adequados de Bayes sob outro tipo de função de perda , ainda que artificial. Os autores deste artigo publicado começam com uma distância baseada no anterior; chamada distância Bregman, que pode ser a distância quadrática ou a entropia, dependendo do anterior. Definindo uma função de perda que é uma mistura dessa distância de Bregman e da distância quadrática
Vou dar o resumo do texto mencionado sobre esse problema no Capítulo 5, Estatísticas Bayesianas, Aprendizado de Máquina: Uma perspectiva probabilística - de Murphy .
Digamos que observamos alguns dados e queremos comentar sobre a distribuição posterior dos parâmetros . Agora, a estimativa pontual do modo dessa distribuição posterior, que é amplamente conhecida como MAP, tem algumas desvantagens.
Diferentemente da média ou mediana, esse é um ponto 'atípico', no sentido de que não considera todos os outros pontos enquanto está sendo estimado. No caso de estimar a média / mediana, levamos em consideração todos os outros pontos.
Assim, como esperado, em distribuições posteriores altamente distorcidas, o MAP (e, por extensão, o MLE) não representa verdadeiramente o realmente posterior.
Então, como resumimos um posterior usando uma estimativa pontual como Média / Mediana / Modo?
É aqui que as pessoas usam a teoria da decisão - essencialmente uma função de perda que é a perda em que se incorre se a verdade é e é nossa estimativa. Podemos escolher uma variedade de funções de perda e nosso objetivo aqui é minimizar o valor esperado da função de perda.
Se a função Perda estiver configurada como , uma função Indicadora para todos os momentos em que NÃO PODEMOS estimar a verdade e, em seguida, minimizar o valor esperado da função de perda wrt é igual a Maximizar esta função wrt . A partir disso, é intuitivo adivinhar que o modo Posterior minimiza o valor esperado da função de perda. Os detalhes deste cálculo podem ser vistos na resposta acima .