aparentemente, o fator Bayes, de alguma forma, usa probabilidades que representam a probabilidade de cada modelo integrado em todo o espaço de parâmetros (ou seja, não apenas no MLE). Como essa integração é realmente alcançada normalmente? Alguém realmente tenta calcular a probabilidade em cada um dos milhares (milhões?) De amostras aleatórias do espaço de parâmetro, ou existem métodos analíticos para integrar a probabilidade no espaço de parâmetro?
Primeiro, qualquer situação em que você considere um termo como para os dados e o modelo é considerado um modelo de probabilidade . Geralmente, isso é o pão com manteiga de qualquer análise estatística, freqüentista ou bayesiana, e essa é a parte que sua análise pretende sugerir que seja um bom ajuste ou um mau ajuste. Portanto, os fatores de Bayes não estão fazendo nada fundamentalmente diferente dos índices de probabilidade.P(D|M)DM
É importante colocar os fatores de Bayes na configuração correta. Por exemplo, quando você tem dois modelos e converte probabilidades em probabilidades, os fatores de Bayes agem como um operador em crenças anteriores:
PosteriorOdds=BayesFactor∗PriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)
A diferença real é que os índices de probabilidade são mais baratos de calcular e geralmente conceitualmente mais fáceis de especificar. A probabilidade no MLE é apenas uma estimativa pontual do fator e do denominador do fator Bayes, respectivamente. Como a maioria das construções freqüentistas, ela pode ser vista como um caso especial de análise bayesiana com um plano artificial difícil de entender. Mas, na maioria das vezes, surgiu porque é analiticamente tratável e mais fácil de calcular (na era anterior ao surgimento de abordagens computacionais bayesianas aproximadas).
No ponto da computação, sim: você avaliará as diferentes integrais de probabilidade no cenário bayesiano com um procedimento de Monte Carlo em larga escala em quase todos os casos de interesse prático. Existem alguns simuladores especializados, como o GHK, que funcionam se você assumir certas distribuições e se fizer essas suposições, às vezes você pode encontrar problemas analiticamente tratáveis para os quais existem fatores Bayes totalmente analíticos.
Mas ninguém usa isso; não há razão para. Com amostradores Metropolis / Gibbs otimizados e outros métodos MCMC, é totalmente tratável abordar esses problemas de maneira totalmente orientada a dados e calcular numericamente suas integrais. De fato, é comum fazer isso hierarquicamente e integrar ainda mais os resultados sobre metapriores relacionados a mecanismos de coleta de dados, projetos experimentais não ignoráveis etc.
Eu recomendo o livro Análise de Dados Bayesiana para mais informações. Embora o autor, Andrew Gelman, pareça não se importar muito com os fatores de Bayes . Como um aparte, eu concordo com Gelman. Se você estiver indo para Bayesiano, explore o traseiro completo. Fazer a seleção de modelos com métodos bayesianos é como prejudicá-los, porque a seleção de modelos é uma forma de inferência fraca e quase inútil. Prefiro conhecer distribuições sobre escolhas de modelo, se eu puder ... quem se importa em quantizá-la para tipos de instruções "modelo A é melhor que modelo B" quando você não precisa?
Além disso, ao calcular o fator Bayes, aplica-se a correção da complexidade (automaticamente via estimativa validada cruzada de probabilidade ou analiticamente via AIC) como ocorre com a taxa de verossimilhança?
Essa é uma das coisas boas dos métodos bayesianos. Os fatores Bayes respondem automaticamente pela complexidade do modelo em um sentido técnico. Você pode configurar um cenário simples com dois modelos, e com complexidades de modelo assumidas e , respectivamente, com e um tamanho de amostra .M1M2d1d2d1<d2N
Então, se é o fator Bayes com no numerador, supondo que seja verdadeiro, pode-se provar que, como , aproxima de a uma taxa que depende da diferença na complexidade do modelo e que o fator Bayes favorece o modelo mais simples. Mais especificamente, você pode mostrar que, em todas as premissas acima,B1,2M1M1N→∞B1,2∞
B1,2=O(N12(d2−d1))
Estou familiarizado com essa derivação e com a discussão do livro Finite Mixture e Markov Switching Models de Sylvia Frühwirth-Schnatter, mas provavelmente existem relatos estatísticos mais diretos que mergulham mais na epistemologia subjacente a ela.
Não conheço os detalhes suficientemente bem para apresentá-los aqui, mas acredito que existem algumas conexões teóricas bastante profundas entre isso e a derivação da AIC. O livro da teoria da informação de Cover e Thomas sugeriu isso pelo menos.
Além disso, quais são as diferenças filosóficas entre a razão de verossimilhança e o fator Bayes (nb, não estou perguntando sobre as diferenças filosóficas entre a razão de verossimilhança e os métodos bayesianos em geral, mas o fator Bayes como uma representação da evidência objetiva especificamente). Como caracterizar o significado do fator Bayes em comparação com a razão de verossimilhança?
A seção do artigo da Wikipedia sobre "Interpretação" faz um bom trabalho ao discutir isso (especialmente o gráfico que mostra a escala de força de evidência de Jeffreys).
Como de costume, não há muita coisa filosófica além das diferenças básicas entre os métodos bayesianos e os métodos freqüentadores (com os quais você já parece familiarizado).
O principal é que a razão de verossimilhança não é coerente no sentido holandês do livro. Você pode inventar cenários em que a inferência de seleção do modelo a partir das proporções de probabilidade levará a pessoa a aceitar apostas perdedoras. O método bayesiano é coerente, mas opera em um prior que pode ser extremamente ruim e deve ser escolhido subjetivamente. Compensações .. Compensações ...
FWIW, acho que esse tipo de seleção de modelo fortemente parametrizada não é uma inferência muito boa. Prefiro métodos bayesianos e organizo-os de forma mais hierárquica, e quero que a inferência se concentre na distribuição posterior completa, se for viável computacionalmente fazê-lo. Eu acho que os fatores Bayes têm algumas propriedades matemáticas puras, mas como eu mesmo Bayesiano, não estou impressionado com eles. Eles ocultam a parte realmente útil da análise bayesiana, que é que o força a lidar com seus priores ao ar livre, em vez de varrê-los para debaixo do tapete, e permite que você faça inferência em posteriores completos.