Modelo de logit Bayesiano - explicação intuitiva?

Devo confessar que nunca ouvi falar desse termo em nenhuma das minhas aulas, graduação ou pós-graduação.

O que significa uma regressão logística ser bayesiana? Estou procurando uma explicação com uma transição da logística regular para a logística bayesiana semelhante à seguinte:

Esta é a equação no modelo de regressão linear: . $E(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

Esta é a equação no modelo de regressão logística: . Isso é feito quando y é categórico. $\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

O que fizemos foi alterar para $E(y)$ . $\ln(\frac{E(y)}{1-E(y)})$

Então, o que é feito com o modelo de regressão logística na regressão logística bayesiana? Acho que não tem nada a ver com a equação.

A visualização deste livro parece definir, mas eu realmente não entendo. O que é tudo isso antes, probabilidade? O que é ? Alguém pode explicar essa parte do livro ou o modelo de logit Bayesiano de outra maneira? $\alpha$

Nota: Isso já foi perguntado antes, mas não respondi muito bem, eu acho.

— BCLC
fonte

Não quero responder isso porque acho que a @Tim cobriu a maior parte. A única coisa que falta nessa grande resposta é que, na regressão logística bayesiana e nos modelos lineares generalizados bayesianos (GLMs) de maneira mais geral, as distribuições anteriores não são apenas colocadas sobre os coeficientes, mas sobre as variações e covariância desses coeficientes. Isso é incrivelmente importante de mencionar, porque uma das principais vantagens de uma abordagem bayesiana dos GLMs é a maior rastreabilidade de especificar e, em muitos casos, também ajustar modelos complexos para a covariância dos coeficientes.

— Equilíbrio Brash

@BrashEquilibrium: você está mencionando uma possível extensão hierárquica da modelagem bayesiana padrão para um modelo de logit. No nosso livro , usamos por exemplo um g-prévio sobre o

's, antes que fixa covariância matriz é derivado a partir do co-variáveis

β

$\beta$

X

$X$

— Xian

Justo o suficiente no g anterior.

— Equilíbrio Brash

Dito isto, ainda há um prior nas covariâncias !!!!!! Se você não discutir isso, não está descrevendo como a regressão logística funciona completamente.

— Equilíbrio Brash

Respostas:

A regressão logística pode ser descrita como uma combinação linear

η = β_{0} + β_{1} X_{1} + . . . + β_{k} X_{k}

$\eta = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k$

que é passado através da função de link : $g$

g (E (Y)) = η

$g(E(Y)) = \eta$

onde a função de link é uma função de logit

E (Y | X, β) = p = {logit}^{- 1} (η)

$E(Y|X,\beta) = p = \text{logit}^{-1}( \eta )$

onde recebe apenas valores em e as funções inversas de logit transformam a combinação linear nesse intervalo. É aqui que a regressão logística clássica termina. $Y$ $\{0,1\}$ $\eta$

No entanto, se você lembrar que para variáveis que recebem apenas valores em , que pode ser considerado como . Nesse caso, a saída da função logit pode ser considerada como probabilidade condicional de "sucesso", ou seja, $E(Y) = P(Y = 1)$ $\{0,1\}$ $E(Y | X,\beta)$ $P(Y = 1 | X,\beta)$ . A distribuição de Bernoullié uma distribuição que descreve a probabilidade de observação do resultado binário, com algumparâmetro , para que possamos descrever como $P(Y=1|X,\beta)$ $p$ $Y$

y_{i} \sim Bernoulli (p)

$y_i \sim \text{Bernoulli}(p)$

Assim, com a regressão logística, procuramos alguns parâmetros que combinam com variáveis independentes formam uma combinação linear . Na regressão clássica (assumimos que a função de link é uma função de identidade), no entanto, para o modelo que recebe valores em , precisamos transformar para que ele se ajuste variar. $\beta$ $X$ $\eta$ $E(Y|X,\beta) = \eta$ $Y$ $\{0,1\}$ $\eta$ $[0,1]$

Agora, para estimar a regressão logística em Bayesian maneira que você pegar alguns priores para parâmetros como com a regressão linear (ver Kruschke et al, 2012 ), em seguida, usar a função logit para transformar a combinação linear , de modo a utilizar a sua saída como um parâmetro da distribuição de Bernoulli que descreve sua variável Então, sim, você realmente usa a equação e o link logit funcionam da mesma maneira que no caso frequencionista, e o resto funciona (por exemplo, escolhendo anteriores) como na estimativa da regressão linear da maneira bayesiana. $\beta_i$ $\eta$ $p$ $Y$

A abordagem simples para escolher priors é escolher distribuições normais (mas você também pode usar outras distribuições, por exemplo, distribuição - ou Laplace para um modelo mais robusto) para com parâmetros e que são predefinidos ou extraídos de Priores hierárquicos . Agora, com a definição do modelo, você pode usar software como o JAGS para executar a simulação Markov Chain Monte Carlo para estimar o modelo. Abaixo, posto o código JAGS para um modelo logístico simples (veja aqui mais exemplos). $t$ $\beta_i$ $\mu_i$ $\sigma_i^2$

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Como você pode ver, o código se traduz diretamente na definição do modelo. O que o software faz é que ele extrai alguns valores do Normal anterior para ae b, em seguida, usa esses valores para estimar pe, finalmente, usa a função de probabilidade para avaliar a probabilidade dos seus dados, dados esses parâmetros (é quando você usa o teorema de Bayes, veja aqui para descrição mais detalhada).

O modelo básico de regressão logística pode ser estendido para modelar a dependência entre os preditores usando um modelo hierárquico (incluindo hiperpriors ). Neste caso, você pode desenhar é de distribuição normal multivariada que nos permite incluir informações sobre covariância entre as variáveis independentes $\beta_i$ $\boldsymbol{\Sigma}$

(\begin{matrix} β_{0} \\ β_{1} \\ ⋮ \\ β_{k} \end{matrix}) \sim M V N ([\begin{matrix} μ_{0} \\ μ_{1} \\ ⋮ \\ μ_{k} \end{matrix}], [\begin{matrix} σ_{0}^{2} & σ_{0, 1} & \dots & σ_{0, k} \\ σ_{1, 0} & σ_{1}^{2} & \dots & σ_{1, k} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ σ_{k, 0} & σ_{k, 1} & \dots & σ_{k}^{2} \end{matrix}])

$\begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \sim \mathrm{MVN} \left( \begin{bmatrix} \mu_0 \\ \mu_1 \\ \vdots \\ \mu_k \end{bmatrix}, \begin{bmatrix} \sigma^2_0 & \sigma_{0,1} & \ldots & \sigma_{0,k} \\ \sigma_{1,0} & \sigma^2_1 & \ldots &\sigma_{1,k} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{k,0} & \sigma_{k,1} & \ldots & \sigma^2_k \end{bmatrix} \right)$

... mas isso está entrando em detalhes, então vamos parar por aqui.

A parte "bayesiana" aqui é escolher anteriores, usando o teorema de Bayes e definindo o modelo em termos probabilísticos. Veja aqui a definição de "modelo bayesiano" e aqui algumas intuições gerais sobre a abordagem bayesiana . O que você também pode notar é que a definição de modelos é bastante direta e flexível com essa abordagem.

Kruschke, JK, Aguinis, H., & Joo, H. (2012). Chegou a hora: métodos bayesianos para análise de dados nas ciências organizacionais. Organizational Research Methods, 15 (4), 722-752.

Gelman, A., Jakulin, A., Pittau, GM e Su, Y.-S. (2008). Uma distribuição prévia padrão pouco informativa para modelos de regressão logística e outros. The Annals of Applied Statistics, 2 (4), 1360–1383.

— Tim
fonte

Você precisa de provas para as variações, não apenas os coeficientes.

— Equilíbrio Brash

g

$g$

η

$\eta$

η = β_{0} + β_{1} X_{1}

$\eta = \beta_0 + \beta_1 X_1$

g

$g$

E (Y) = η

$E(Y) = \eta$

O @BCLC verifica os links na minha resposta, eles fornecem uma introdução às estatísticas bayesianas em geral. Esse é um tópico muito mais amplo que o mencionado na sua pergunta inicial, mas você pode encontrar uma boa introdução nas referências que forneci na minha resposta.

— Tim

@ Tim eu fiz um erro de digitação lá. As provas devem ler os anteriores. Basicamente, os coeficientes não são os únicos parâmetros desconhecidos. A distribuição multinomial também possui uma matriz de covariância de variância e normalmente não assumimos que ela seja conhecida.

— Equilíbrio Brash

"A parte" bayesiana "aqui é escolher as anteriores, usando o teorema de Bayes e definindo o modelo em termos probabilísticos". Uma boa referência aqui é Gelman et al. A fracamente INFORMATIVO PADRÃO DE DISTRIBUIÇÃO PRÉVIO PARA A LOGÍSTICA E outros modelos de regressão stat.columbia.edu/~gelman/research/published/priors11.pdf

— Dalton Hance

O que é tudo isso antes, probabilidade?

É isso que o torna bayesiano. O modelo generativo para os dados é o mesmo; a diferença é que uma análise bayesiana escolhe alguma distribuição anterior para parâmetros de interesse e calcula ou aproxima uma distribuição posterior , na qual toda a inferência se baseia. A regra de Bayes relaciona os dois: O posterior é proporcional aos tempos de probabilidade anteriores.

$\bf\beta$

Alguns modelos freqüentistas podem estar relacionados a uma contrapartida bayesiana com um anterior específico, embora eu não tenha certeza do que corresponde neste caso.

— Sean Easter
fonte

β

$\beta$

β

$\beta$

β_{1}, β_{2}, . . ., β_{n}

$\beta_1, \beta_2, ..., \beta_n$

X_{1}

$X_1$

X_{2}

$X_2$

X_{n}

$X_n$

β

$\beta$

@BCLC Para responder a isso, vou começar com o processo simples de inferência bayesiana e definir os termos da seguinte maneira: os bayesianos tratam todos os parâmetros de interesse como variáveis aleatórias e atualizam suas crenças sobre esses parâmetros à luz dos dados. A distribuição anterior expressa sua crença sobre os parâmetros antes de analisar os dados; a * distribuição posterior * - pela regra de Bayes, o produto normalizado do anterior e do provável - resume a crença incerta sobre os parâmetros à luz do anterior e dos dados. O cálculo da parte posterior é onde o ajuste ocorre.

— Sean Páscoa

β

$\beta$

p

$p$

p

$p$

Ok, acho que o entendi melhor depois de ler Um ensaio para resolver um problema na Doutrina das Oportunidades . Obrigado SeanEster

— BCLC

P (B)

$P(B)$