Edições: adicionei um exemplo simples: inferência da média do . Também esclareci um pouco porque os intervalos credíveis que não correspondem aos intervalos de confiança são ruins.
Eu, um bayesiano bastante devoto, estou no meio de uma espécie de crise de fé.
Meu problema é o seguinte. Suponha que eu queira analisar alguns dados de . O que eu faria é:
primeiro, proponha um modelo condicional:
Em seguida, escolha um anterior em :
Por fim, aplique a regra de Bayes, calcule a posterior: (ou alguma aproximação a ela, se for desconectável) e responda a todas as perguntas que tenho sobre
Essa é uma abordagem sensata: se o verdadeiro modelo dos dados está realmente "dentro" dos meus condicionais (corresponde a algum valor ), posso recorrer à teoria da decisão estatística para dizer que meu método é admissível (ver Robert's "A escolha bayesiana" para detalhes; "Todas as estatísticas" também fornece uma descrição clara no capítulo relevante).
No entanto, como todos sabem, supor que meu modelo esteja correto é bastante arrogante: por que a natureza deveria se encaixar perfeitamente na caixa dos modelos que eu considerei? É muito mais realista supor que o modelo real dos dados difere de para todos os valores de . Isso geralmente é chamado de modelo "mal especificado".
Meu problema é que, nesse caso mais realista e mal especificado, não tenho bons argumentos para ser bayesiano (ou seja: calcular a distribuição posterior) versus simplesmente calcular o Estimador de Máxima Verossimilhança (MLE):
De fato, de acordo com Kleijn, vd Vaart (2012) , no caso mal especificado, a distribuição posterior:
converge como para uma distribuição dirac centralizada em
não possui a variação correta (a menos que dois valores sejam iguais) para garantir que intervalos credíveis dos intervalos de correspondência posterior correspondam a . (Observe que, embora os intervalos de confiança sejam obviamente algo com que os bayesianos não se importam excessivamente, isso significa qualitativamente que a distribuição posterior está intrinsecamente errada, pois implica que seus intervalos confiáveis não têm cobertura correta)
Assim, estamos pagando um prêmio computacional (a inferência bayesiana, em geral, é mais cara que o MLE) por nenhuma propriedade adicional
Assim, finalmente, minha pergunta: existem argumentos, sejam eles teóricos ou empíricos, para usar a inferência bayesiana sobre a alternativa mais simples de MLE quando o modelo é mal especificado?
(Como sei que minhas perguntas geralmente não são claras, entre em contato se você não entender alguma coisa: tentarei reformulá-la)
Edit: vamos considerar um exemplo simples: inferir a média do sob um modelo gaussiano (com variação conhecida para simplificar ainda mais). Consideramos um prior gaussiano: denotamos a média anterior, a variação inversa do prior. Seja a média empírica do . Por fim, observe: .
A distribuição posterior é:
No caso especificado corretamente (quando o realmente tem uma distribuição gaussiana), esse posterior tem as seguintes propriedades agradáveis
Se o for gerado a partir de um modelo hierárquico no qual sua média compartilhada é escolhida na distribuição anterior, os intervalos credíveis posteriores terão cobertura exata. Dependendo dos dados, a probabilidade de estar em qualquer intervalo é igual à probabilidade que o posterior atribui a esse intervalo
Mesmo que o anterior não esteja correto, os intervalos confiáveis têm cobertura correta no limite no qual a influência anterior no posterior desaparece
o posterior tem boas propriedades freqüentistas: qualquer estimador bayesiano construído a partir do posterior é admissível, a média posterior é um estimador eficiente (no sentido de Cramer-Rao) da média, intervalos credíveis são, assintoticamente, intervalos de confiança.
No caso mal especificado, a maioria dessas propriedades não é garantida pela teoria. Para consertar idéias, vamos assumir que o modelo real para o é que elas são distribuições de Student. A única propriedade que podemos garantir (Kleijn et al) é que a distribuição posterior se concentra na média real do no limite . Em geral, todas as propriedades de cobertura desapareceriam. Pior, em geral, podemos garantir que, nesse limite, as propriedades de cobertura estejam fundamentalmente erradas: a distribuição posterior atribui a probabilidade errada a várias regiões do espaço.