Razão de verossimilhança vs fator de Bayes

Sou bastante evangelístico no que diz respeito ao uso de razões de probabilidade para representar a evidência objetiva a favor / contra um determinado fenômeno. No entanto, aprendi recentemente que o fator Bayes desempenha uma função semelhante no contexto dos métodos bayesianos (isto é, o prior subjetivo é combinado com o fator objetivo Bayes para produzir um estado subjetivo de crença subjetivo atualizado objetivamente). Agora estou tentando entender as diferenças computacionais e filosóficas entre uma razão de verossimilhança e um fator de Bayes.

No nível computacional, entendo que, embora a razão de verossimilhança seja geralmente calculada usando as verossimilhanças que representam a probabilidade máxima para a respectiva parametrização de cada modelo (estimada por validação cruzada ou penalizada de acordo com a complexidade do modelo usando o AIC), aparentemente o fator Bayes de alguma forma usa probabilidades que representam a probabilidade de cada modelo integrado em todo o espaço de parâmetros (ou seja, não apenas no MLE). Como essa integração é realmente alcançada normalmente? Alguém realmente tenta calcular a probabilidade em cada um dos milhares (milhões?) De amostras aleatórias do espaço de parâmetro, ou existem métodos analíticos para integrar a probabilidade no espaço de parâmetro? Além disso, ao calcular o fator Bayes,

Além disso, quais são as diferenças filosóficas entre a razão de verossimilhança e o fator Bayes (nb, não estou perguntando sobre as diferenças filosóficas entre a razão de verossimilhança e os métodos bayesianos em geral, mas o fator Bayes como uma representação da evidência objetiva especificamente). Como caracterizar o significado do fator Bayes em comparação com a razão de verossimilhança?

likelihood-ratio bayes-factors

— Mike Lawrence
fonte

Você já considerou o exemplo na Wikipedia

— Henry

O livro de Chen, Shao e Ibrahim (2000) é dedicado ao cálculo de Monte Carlo dos fatores de Bayes.

— Xi'an

Respostas:

aparentemente, o fator Bayes, de alguma forma, usa probabilidades que representam a probabilidade de cada modelo integrado em todo o espaço de parâmetros (ou seja, não apenas no MLE). Como essa integração é realmente alcançada normalmente? Alguém realmente tenta calcular a probabilidade em cada um dos milhares (milhões?) De amostras aleatórias do espaço de parâmetro, ou existem métodos analíticos para integrar a probabilidade no espaço de parâmetro?

Primeiro, qualquer situação em que você considere um termo como para os dados e o modelo é considerado um modelo de probabilidade . Geralmente, isso é o pão com manteiga de qualquer análise estatística, freqüentista ou bayesiana, e essa é a parte que sua análise pretende sugerir que seja um bom ajuste ou um mau ajuste. Portanto, os fatores de Bayes não estão fazendo nada fundamentalmente diferente dos índices de probabilidade. $P(D|M)$ $D$ $M$

É importante colocar os fatores de Bayes na configuração correta. Por exemplo, quando você tem dois modelos e converte probabilidades em probabilidades, os fatores de Bayes agem como um operador em crenças anteriores:

P o s t e r i o r O d d s = B a y e s F a c t o r * P r i o r O d d s

$Posterior Odds = Bayes Factor * Prior Odds$

\frac{P (M_{1} | D)}{P (M_{2} | D)} = B . F . \times \frac{P (M_{1})}{P (M_{2})}

$\frac{P(M_{1}|D)}{P(M_{2}|D)} = B.F. \times \frac{P(M_{1})}{P(M_{2})}$

A diferença real é que os índices de probabilidade são mais baratos de calcular e geralmente conceitualmente mais fáceis de especificar. A probabilidade no MLE é apenas uma estimativa pontual do fator e do denominador do fator Bayes, respectivamente. Como a maioria das construções freqüentistas, ela pode ser vista como um caso especial de análise bayesiana com um plano artificial difícil de entender. Mas, na maioria das vezes, surgiu porque é analiticamente tratável e mais fácil de calcular (na era anterior ao surgimento de abordagens computacionais bayesianas aproximadas).

No ponto da computação, sim: você avaliará as diferentes integrais de probabilidade no cenário bayesiano com um procedimento de Monte Carlo em larga escala em quase todos os casos de interesse prático. Existem alguns simuladores especializados, como o GHK, que funcionam se você assumir certas distribuições e se fizer essas suposições, às vezes você pode encontrar problemas analiticamente tratáveis para os quais existem fatores Bayes totalmente analíticos.

Mas ninguém usa isso; não há razão para. Com amostradores Metropolis / Gibbs otimizados e outros métodos MCMC, é totalmente tratável abordar esses problemas de maneira totalmente orientada a dados e calcular numericamente suas integrais. De fato, é comum fazer isso hierarquicamente e integrar ainda mais os resultados sobre metapriores relacionados a mecanismos de coleta de dados, projetos experimentais não ignoráveis etc.

Eu recomendo o livro Análise de Dados Bayesiana para mais informações. Embora o autor, Andrew Gelman, pareça não se importar muito com os fatores de Bayes . Como um aparte, eu concordo com Gelman. Se você estiver indo para Bayesiano, explore o traseiro completo. Fazer a seleção de modelos com métodos bayesianos é como prejudicá-los, porque a seleção de modelos é uma forma de inferência fraca e quase inútil. Prefiro conhecer distribuições sobre escolhas de modelo, se eu puder ... quem se importa em quantizá-la para tipos de instruções "modelo A é melhor que modelo B" quando você não precisa?

Além disso, ao calcular o fator Bayes, aplica-se a correção da complexidade (automaticamente via estimativa validada cruzada de probabilidade ou analiticamente via AIC) como ocorre com a taxa de verossimilhança?

Essa é uma das coisas boas dos métodos bayesianos. Os fatores Bayes respondem automaticamente pela complexidade do modelo em um sentido técnico. Você pode configurar um cenário simples com dois modelos, e com complexidades de modelo assumidas e , respectivamente, com e um tamanho de amostra . $M_{1}$ $M_{2}$ $d_{1}$ $d_{2}$ $d_{1} < d_{2}$ $N$

Então, se é o fator Bayes com no numerador, supondo que seja verdadeiro, pode-se provar que, como , aproxima de a uma taxa que depende da diferença na complexidade do modelo e que o fator Bayes favorece o modelo mais simples. Mais especificamente, você pode mostrar que, em todas as premissas acima, $B_{1,2}$ $M_{1}$ $M_{1}$ $N\to\infty$ $B_{1,2}$ $\infty$

B_{1, 2} = O (N^{\frac{1}{2} (d_{2} - d_{1})})

$B_{1,2} = \mathcal{O}(N^{\frac{1}{2}(d_{2}-d_{1})})$

Estou familiarizado com essa derivação e com a discussão do livro Finite Mixture e Markov Switching Models de Sylvia Frühwirth-Schnatter, mas provavelmente existem relatos estatísticos mais diretos que mergulham mais na epistemologia subjacente a ela.

Não conheço os detalhes suficientemente bem para apresentá-los aqui, mas acredito que existem algumas conexões teóricas bastante profundas entre isso e a derivação da AIC. O livro da teoria da informação de Cover e Thomas sugeriu isso pelo menos.

Além disso, quais são as diferenças filosóficas entre a razão de verossimilhança e o fator Bayes (nb, não estou perguntando sobre as diferenças filosóficas entre a razão de verossimilhança e os métodos bayesianos em geral, mas o fator Bayes como uma representação da evidência objetiva especificamente). Como caracterizar o significado do fator Bayes em comparação com a razão de verossimilhança?

A seção do artigo da Wikipedia sobre "Interpretação" faz um bom trabalho ao discutir isso (especialmente o gráfico que mostra a escala de força de evidência de Jeffreys).

Como de costume, não há muita coisa filosófica além das diferenças básicas entre os métodos bayesianos e os métodos freqüentadores (com os quais você já parece familiarizado).

O principal é que a razão de verossimilhança não é coerente no sentido holandês do livro. Você pode inventar cenários em que a inferência de seleção do modelo a partir das proporções de probabilidade levará a pessoa a aceitar apostas perdedoras. O método bayesiano é coerente, mas opera em um prior que pode ser extremamente ruim e deve ser escolhido subjetivamente. Compensações .. Compensações ...

FWIW, acho que esse tipo de seleção de modelo fortemente parametrizada não é uma inferência muito boa. Prefiro métodos bayesianos e organizo-os de forma mais hierárquica, e quero que a inferência se concentre na distribuição posterior completa, se for viável computacionalmente fazê-lo. Eu acho que os fatores Bayes têm algumas propriedades matemáticas puras, mas como eu mesmo Bayesiano, não estou impressionado com eles. Eles ocultam a parte realmente útil da análise bayesiana, que é que o força a lidar com seus priores ao ar livre, em vez de varrê-los para debaixo do tapete, e permite que você faça inferência em posteriores completos.

— ely
fonte

"Como sempre, não há muita coisa filosófica além das diferenças básicas entre os métodos bayesianos e os métodos freqüentadores (com os quais você já parece familiarizado). O principal é que o teste da razão de verossimilhança ..." Apenas um ponto de esclarecimento, eu não não pretende comparar os fatores de Bayes com os testes de razão de verossimilhança , mas com as razões de verossimilhança por si só, sem bagagem de teste de hipótese frequente / nula.

— 30812 Mike Lawrence Lawrence

De acordo com meu esclarecimento acima: Portanto, parece-me que a grande diferença entre BFs e LRs é que, como você diz, o primeiro corrige automaticamente a complexidade, mas exige muita computação, enquanto o último exige muito menos computação, mas exige correção explícita para a complexidade do modelo (usando AIC, que é computacionalmente rápido, ou validação cruzada, que é um pouco mais computacionalmente caro).

— 30612 Mike Lawrence

Desculpe, a taxa de probabilidade de teste foi um erro de digitação, deveria ter sido apenas da razão de verossimilhança. Acho que você tem quase toda a razão, mas ainda falta a visão geral de que a taxa de probabilidade é apenas uma estimativa pontual. Isso só será útil se as distribuições de probabilidade subjacentes se comportarem bem até uma aproximação quadrática na vizinhança do MLE. Os fatores Bayes não precisam se preocupar com propriedades de distribuição assintóticas como essa, por isso é especificamente mais geral. Ele inclui a inferência de seleção de modelo baseada em MLE.

— Ely

Em outras palavras, o MLE pode ser visto como o estimador máximo a posteriori (PAM), apenas com um prévio inadequado (quando a integração permite isso), e o PAM é uma estimativa de ponto mais atraente, pois incorpora informações prévias. Agora, em vez de apenas escolher o modo do posterior ... por que não combinar todos os valores do posterior de acordo com a probabilidade anterior? Não fornecerá uma estimativa pontual dos parâmetros, mas na maioria das vezes as pessoas realmente não querem uma estimativa pontual. Distribuições mais parâmetros são sempre mais útil do que as estimativas pontuais, quando você pode pagar para obtê-los

— Ely

Para entender a diferença entre as razões de verossimilhança e os fatores de Bayes, é útil considerar uma característica principal dos fatores de Bayes com mais detalhes:

Como os fatores Bayes conseguem explicar automaticamente a complexidade dos modelos subjacentes?

Uma perspectiva sobre essa questão é considerar métodos para inferência aproximada determinística. Bayes variacional é um desses métodos. Isso pode não apenas reduzir drasticamente a complexidade computacional das aproximações estocásticas (por exemplo, amostragem MCMC). Bayes variacionais também fornecem uma compreensão intuitiva do que constitui um fator de Bayes.

Lembre-se primeiro que um fator Bayes se baseia nas evidências de dois modelos concorrentes,

\begin{aligned} B F_{1, 2} = \frac{p (data ∣ M_{1})}{p (data ∣ M_{2})}, \end{aligned}

$\begin{align} BF_{1,2} = \frac{p(\textrm{data} \mid M_1)}{p(\textrm{data} \mid M_2)}, \end{align}$

onde as evidências do modelo individual teriam que ser calculadas por uma integral complicada:

\begin{aligned} p (data ∣ M_{i}) = \int p (data ∣ θ, M_{i}) p (θ ∣ M_{i}) d θ \end{aligned}

$\begin{align} p(\textrm{data} \mid M_i) = \int p(\textrm{data} \mid \theta,M_i ) \ p(\theta \mid M_i) \ \textrm{d}\theta \end{align}$

Essa integral não é apenas necessária para calcular um fator de Bayes; também é necessário para inferir os próprios parâmetros, isto é, ao calcular . $p(\theta \mid \textrm{data}, M_i)$

Uma abordagem Bayes variacional de forma fixa aborda esse problema fazendo uma suposição distributiva sobre os posteriores condicionais (por exemplo, uma suposição gaussiana). Isso transforma um problema de integração difícil em um problema de otimização muito mais fácil: o problema de encontrar os momentos de uma densidade aproximada que é maximamente semelhante ao posterior verdadeiro, mas desconhecido, posterior . $q(\theta)$ $p(\theta \mid \textrm{data},M_i)$

O cálculo variacional nos diz que isso pode ser alcançado maximizando a chamada energia livre negativa , que está diretamente relacionada à evidência do modelo de log: $\mathcal{F}$

\begin{aligned} F = log p (data ∣ M_{i}) - KL [q (θ) | | p (θ ∣ data, M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \textrm{log} \; p(\textrm{data} \mid M_i) - \textrm{KL}\left[q(\theta) \; || \; p(\theta \mid \textrm{data},M_i) \right] \end{align}$

A partir disso, você pode ver que maximizar a energia livre negativa não apenas nos fornece um posterior aproximado . Como a divergência Kullback-Leibler não é negativa, também fornece um limite inferior na evidência do modelo (log) . $q(\theta) \approx p(\theta \mid \textrm{data},M_i)$ $\mathcal{F}$

Agora podemos voltar à questão original de como um fator Bayes equilibra automaticamente a qualidade do ajuste e a complexidade dos modelos envolvidos. Acontece que a energia livre negativa pode ser reescrita da seguinte maneira:

\begin{aligned} F = {⟨ p (data ∣ θ, M_{i}) ⟩}_{q} - KL [q (θ) | | p (θ ∣ M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \left\langle p(\textrm{data} \mid \theta,M_i) \right\rangle_q - \textrm{KL}\left[ q(\theta) \; || \; p(\theta \mid M_i) \right] \end{align}$

O primeiro termo é a probabilidade logarítmica dos dados esperados no posterior aproximado; representa a qualidade do ajuste (ou precisão ) do modelo. O segundo termo é a divergência de KL entre o posterior aproximado e o anterior; representa a complexidade do modelo, sob a visão de que um modelo mais simples é mais consistente com nossas crenças anteriores, ou sob a visão de que um modelo mais simples não precisa ser esticado tanto para acomodar os dados.

A aproximação de energia livre à evidência do modelo de log mostra que a evidência do modelo incorpora uma troca entre modelar os dados (isto é, qualidade do ajuste) e permanecer consistente com o nosso anterior (isto é, simplicidade ou complexidade negativa).

Um fator Bayes (em contraste com uma razão de verossimilhança) diz, portanto, qual dos dois modelos concorrentes é melhor em fornecer uma explicação simples e precisa dos dados.

— Kay Brodersen
fonte