A regressão logística pode ser descrita como uma combinação linear
η= β0 0+ β1X1+ . . . + βkXk
que é passado através da função de link :g
g( E( Y) ) = η
onde a função de link é uma função de logit
E( Y| X, β) = p = logit- 1( η)
onde recebe apenas valores em { 0 , 1 } e as funções inversas de logit transformam a combinação linear η nesse intervalo. É aqui que a regressão logística clássica termina.Y{ 0 , 1 }η
No entanto, se você lembrar que para variáveis que recebem apenas valores em { 0 , 1 } , que E ( Y | X , β ) pode ser considerado como P ( Y = 1 | X , β ) . Nesse caso, a saída da função logit pode ser considerada como probabilidade condicional de "sucesso", ou seja, P ( Y = 1 | X ,E( Y) = P( Y= 1 ){ 0 , 1 }E( Y| X, β)P( Y= 1 | X, β) . A distribuição de Bernoullié uma distribuição que descreve a probabilidade de observação do resultado binário, com algumparâmetro p , para que possamos descrever Y comoP( Y= 1 | X, β)pY
yEu∼ Bernoulli ( p )
Assim, com a regressão logística, procuramos alguns parâmetros que combinam com variáveis independentes X e formam uma combinação linear η . Na regressão clássica E ( Y | X , β ) = η (assumimos que a função de link é uma função de identidade), no entanto, para o modelo Y que recebe valores em { 0 , 1 } , precisamos transformar η para que ele se ajuste [ 0 , 1 ] variar.βXηE( Y| X, β) = ηY{0,1}η[0,1]
Agora, para estimar a regressão logística em Bayesian maneira que você pegar alguns priores para parâmetros como com a regressão linear (ver Kruschke et al, 2012 ), em seguida, usar a função logit para transformar a combinação linear η , de modo a utilizar a sua saída como um p parâmetro da distribuição de Bernoulli que descreve sua variável Y Então, sim, você realmente usa a equação e o link logit funcionam da mesma maneira que no caso frequencionista, e o resto funciona (por exemplo, escolhendo anteriores) como na estimativa da regressão linear da maneira bayesiana.βiηpY
A abordagem simples para escolher priors é escolher distribuições normais (mas você também pode usar outras distribuições, por exemplo, distribuição - ou Laplace para um modelo mais robusto) para β i com parâmetros μ i e σ 2 i que são predefinidos ou extraídos de Priores hierárquicos . Agora, com a definição do modelo, você pode usar software como o JAGS para executar a simulação Markov Chain Monte Carlo para estimar o modelo. Abaixo, posto o código JAGS para um modelo logístico simples (veja aqui mais exemplos).tβiμiσ2i
model {
# setting up priors
a ~ dnorm(0, .0001)
b ~ dnorm(0, .0001)
for (i in 1:N) {
# passing the linear combination through logit function
logit(p[i]) <- a + b * x[i]
# likelihood function
y[i] ~ dbern(p[i])
}
}
Como você pode ver, o código se traduz diretamente na definição do modelo. O que o software faz é que ele extrai alguns valores do Normal anterior para a
e b
, em seguida, usa esses valores para estimar p
e, finalmente, usa a função de probabilidade para avaliar a probabilidade dos seus dados, dados esses parâmetros (é quando você usa o teorema de Bayes, veja aqui para descrição mais detalhada).
O modelo básico de regressão logística pode ser estendido para modelar a dependência entre os preditores usando um modelo hierárquico (incluindo hiperpriors ). Neste caso, você pode desenhar é de distribuição normal multivariada que nos permite incluir informações sobre covariância Σ entre as variáveis independentesβiΣ
⎛⎝⎜⎜⎜⎜β0β1⋮βk⎞⎠⎟⎟⎟⎟∼MVN⎛⎝⎜⎜⎜⎜⎜⎡⎣⎢⎢⎢⎢μ0μ1⋮μk⎤⎦⎥⎥⎥⎥,⎡⎣⎢⎢⎢⎢⎢σ20σ1,0⋮σk,0σ0,1σ21⋮σk,1……⋱…σ0,kσ1,k⋮σ2k⎤⎦⎥⎥⎥⎥⎥⎞⎠⎟⎟⎟⎟⎟
... mas isso está entrando em detalhes, então vamos parar por aqui.
A parte "bayesiana" aqui é escolher anteriores, usando o teorema de Bayes e definindo o modelo em termos probabilísticos. Veja aqui a definição de "modelo bayesiano" e aqui algumas intuições gerais sobre a abordagem bayesiana . O que você também pode notar é que a definição de modelos é bastante direta e flexível com essa abordagem.
Kruschke, JK, Aguinis, H., & Joo, H. (2012). Chegou a hora: métodos bayesianos para análise de dados nas ciências organizacionais. Organizational Research Methods, 15 (4), 722-752.
Gelman, A., Jakulin, A., Pittau, GM e Su, Y.-S. (2008). Uma distribuição prévia padrão pouco informativa para modelos de regressão logística e outros. The Annals of Applied Statistics, 2 (4), 1360–1383.