Modelo de regressão linear simples
yi=α+βxi+ε
pode ser escrito em termos de modelo probabilístico por trás dele
μi=α+βxiyi∼N(μi,σ)
isto é, a variável dependente segue a distribuição normal parametrizada pela média , que é uma função linear de parametrizada por e pelo desvio padrão . Se você estimar esse modelo usando mínimos quadrados comuns , não precisa se preocupar com a formulação probabilística, porque está procurando valores ideais dos parâmetros , minimizando os erros quadrados dos valores ajustados para os valores previstos. Por outro lado, você poderia estimar esse modelo usando a estimativa de máxima verossimilhança , onde procuraria valores ótimos de parâmetros, maximizando a função de verossimilhançaYμiXα,βσα,β
argmaxα,β,σ∏i=1nN(yi;α+βxi,σ)
onde é uma função de densidade da distribuição normal avaliada nos pontos , parametrizada por meio de e desvio padrão .Nyiα+βxiσ
Na abordagem bayesiana, em vez de maximizar apenas a função de verossimilhança, assumiríamos distribuições anteriores para os parâmetros e usaríamos o teorema de Bayes
posterior∝likelihood×prior
A função de probabilidade é a mesma que acima, mas o que muda é que você assume algumas distribuições anteriores para os parâmetros estimados e as inclui na equaçãoα,β,σ
f(α,β,σ∣Y,X)posterior∝∏i=1nN(yi∣α+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors
"Quais distribuições?" é uma pergunta diferente, pois há um número ilimitado de opções. Para parâmetros você poderia, por exemplo, assumir distribuições normais parametrizadas por alguns hiperparâmetros , ou distribuição se você quiser assumir caudas mais pesadas ou distribuição uniforme se você não quiser fazer muitas suposições, mas deseja assumir que os parâmetros podem ser a priori "qualquer coisa no intervalo especificado", etc. Para você precisa assumir alguma distribuição anterior que é delimitada como sendo maior que zero, pois o desvio padrão precisa ser positivo. Isso pode levar à formulação do modelo, como ilustrado abaixo por John K. Kruschke.α,βtσ
(fonte: http://www.indiana.edu/~kruschke/BMLR/ )
Enquanto em probabilidade máxima você estava procurando um único valor ótimo para cada um dos parâmetros, na abordagem bayesiana, aplicando o teorema de Bayes, você obtém a distribuição posterior dos parâmetros. A estimativa final dependerá da informação que vem de seus dados e de seus antecedentes , mas quanto mais informação está contida em seus dados, a menos influentes são priores .
Observe que, ao usar anteriores uniformes, elas assumem a forma após eliminar as constantes de normalização. Isso faz com que o teorema de Bayes seja proporcional à função de probabilidade isolada, de modo que a distribuição posterior atingirá seu máximo exatamente no mesmo ponto da estimativa de probabilidade máxima. A seguir, a estimativa sob prioros uniformes será a mesma do uso de mínimos quadrados comuns, pois minimizar os erros ao quadrado corresponde a maximizar a probabilidade normal .f(θ)∝1
Para estimar um modelo na abordagem bayesiana em alguns casos, você pode usar anteriores conjugados , para que a distribuição posterior esteja diretamente disponível (veja o exemplo aqui ). Entretanto, na grande maioria dos casos, a distribuição posterior não estará disponível diretamente e você precisará usar os métodos Monte Carlo da Cadeia de Markov para estimar o modelo (verifique este exemplo do uso do algoritmo Metropolis-Hastings para estimar parâmetros de regressão linear). Finalmente, se você estiver interessado apenas em estimativas pontuais de parâmetros, poderá usar a estimativa máxima a posteriori , ou seja,
argmaxα,β,σf(α,β,σ∣Y,X)
Para uma descrição mais detalhada da regressão logística, você pode verificar o modelo de logit Bayesiano - explicação intuitiva? fio.
Para saber mais, consulte os seguintes livros:
Kruschke, J. (2014). Fazendo análise de dados bayesiana: um tutorial com R, JAGS e Stan. Academic Press.
Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004).
Análise de dados bayesianos. Chapman & Hall / CRC.