Regressão de Bayes: como é feita em comparação com a regressão padrão?

Eu tenho algumas perguntas sobre a regressão bayesiana:

Dada uma regressão padrão como . Se eu quiser mudar isso para uma regressão bayesiana, preciso de distribuições anteriores para e (ou não funciona dessa maneira)? $y = \beta_0 + \beta_1 x + \varepsilon$ $\beta_0$ $\beta_1$
Na regressão padrão, tentaria-se minimizar os resíduos para obter valores únicos para e . Como isso é feito na regressão de Bayes? $\beta_0$ $\beta_1$

Eu realmente luto muito aqui:

posterior = prior \times likelihood

$\text{posterior} = \text{prior} \times \text{likelihood}$

A probabilidade vem do conjunto de dados atual (portanto, é meu parâmetro de regressão, mas não como um valor único, mas como uma distribuição de probabilidade, certo?). Prior vem de uma pesquisa anterior (digamos). Então, eu tenho essa equação:

y = β_{1} x + ε

$y = \beta_1 x + \varepsilon$

sendo minha probabilidade ou posterior (ou isso é totalmente errado)? $\beta_1$

Simplesmente não consigo entender como a regressão padrão se transforma em uma de Bayes.

regression bayesian

— TinglTanglBob
fonte

Respostas:

Modelo de regressão linear simples

y_{i} = α + β x_{i} + ε

$y_i = \alpha + \beta x_i + \varepsilon$

pode ser escrito em termos de modelo probabilístico por trás dele

μ_{i} = α + β x_{i} y_{i} \sim N (μ_{i}, σ)

$\mu_i = \alpha + \beta x_i \\ y_i \sim \mathcal{N}(\mu_i, \sigma)$

isto é, a variável dependente segue a distribuição normal parametrizada pela média , que é uma função linear de parametrizada por e pelo desvio padrão . Se você estimar esse modelo usando mínimos quadrados comuns , não precisa se preocupar com a formulação probabilística, porque está procurando valores ideais dos parâmetros , minimizando os erros quadrados dos valores ajustados para os valores previstos. Por outro lado, você poderia estimar esse modelo usando a estimativa de máxima verossimilhança , onde procuraria valores ótimos de parâmetros, maximizando a função de verossimilhança $Y$ $\mu_i$ $X$ $\alpha,\beta$ $\sigma$ $\alpha,\beta$

\underset{α, β, σ}{a r g m a x} \prod_{i = 1}^{n} N (y_{i}; α + β x_{i}, σ)

$\DeclareMathOperator*{\argmax}{arg\,max} \argmax_{\alpha,\,\beta,\,\sigma} \prod_{i=1}^n \mathcal{N}(y_i; \alpha + \beta x_i, \sigma)$

onde é uma função de densidade da distribuição normal avaliada nos pontos , parametrizada por meio de e desvio padrão . $\mathcal{N}$ $y_i$ $\alpha + \beta x_i$ $\sigma$

Na abordagem bayesiana, em vez de maximizar apenas a função de verossimilhança, assumiríamos distribuições anteriores para os parâmetros e usaríamos o teorema de Bayes

posterior \propto likelihood \times prior

$\text{posterior} \propto \text{likelihood} \times \text{prior}$

A função de probabilidade é a mesma que acima, mas o que muda é que você assume algumas distribuições anteriores para os parâmetros estimados e as inclui na equação $\alpha,\beta,\sigma$

\underset{posterior}{\underset{⏟}{f (α, β, σ ∣ Y, X)}} \propto \underset{likelihood}{\underset{⏟}{\prod_{i = 1}^{n} N (y_{i} ∣ α + β x_{i}, σ)}} \underset{priors}{\underset{⏟}{f_{α} (α) f_{β} (β) f_{σ} (σ)}}

$\underbrace{f(\alpha,\beta,\sigma\mid Y,X)}_{\text{posterior}} \propto \underbrace{\prod_{i=1}^n \mathcal{N}(y_i\mid \alpha + \beta x_i, \sigma)}_{\text{likelihood}} \; \underbrace{f_{\alpha}(\alpha) \, f_{\beta}(\beta) \, f_{\sigma}(\sigma)}_{\text{priors}}$

"Quais distribuições?" é uma pergunta diferente, pois há um número ilimitado de opções. Para parâmetros você poderia, por exemplo, assumir distribuições normais parametrizadas por alguns hiperparâmetros , ou distribuição se você quiser assumir caudas mais pesadas ou distribuição uniforme se você não quiser fazer muitas suposições, mas deseja assumir que os parâmetros podem ser a priori "qualquer coisa no intervalo especificado", etc. Para você precisa assumir alguma distribuição anterior que é delimitada como sendo maior que zero, pois o desvio padrão precisa ser positivo. Isso pode levar à formulação do modelo, como ilustrado abaixo por John K. Kruschke. $\alpha,\beta$ $t$ $\sigma$

(fonte: http://www.indiana.edu/~kruschke/BMLR/ )

Enquanto em probabilidade máxima você estava procurando um único valor ótimo para cada um dos parâmetros, na abordagem bayesiana, aplicando o teorema de Bayes, você obtém a distribuição posterior dos parâmetros. A estimativa final dependerá da informação que vem de seus dados e de seus antecedentes , mas quanto mais informação está contida em seus dados, a menos influentes são priores .

Observe que, ao usar anteriores uniformes, elas assumem a forma após eliminar as constantes de normalização. Isso faz com que o teorema de Bayes seja proporcional à função de probabilidade isolada, de modo que a distribuição posterior atingirá seu máximo exatamente no mesmo ponto da estimativa de probabilidade máxima. A seguir, a estimativa sob prioros uniformes será a mesma do uso de mínimos quadrados comuns, pois minimizar os erros ao quadrado corresponde a maximizar a probabilidade normal . $f(\theta) \propto 1$

Para estimar um modelo na abordagem bayesiana em alguns casos, você pode usar anteriores conjugados , para que a distribuição posterior esteja diretamente disponível (veja o exemplo aqui ). Entretanto, na grande maioria dos casos, a distribuição posterior não estará disponível diretamente e você precisará usar os métodos Monte Carlo da Cadeia de Markov para estimar o modelo (verifique este exemplo do uso do algoritmo Metropolis-Hastings para estimar parâmetros de regressão linear). Finalmente, se você estiver interessado apenas em estimativas pontuais de parâmetros, poderá usar a estimativa máxima a posteriori , ou seja,

\underset{α, β, σ}{a r g m a x} f (α, β, σ ∣ Y, X)

$\argmax_{\alpha,\,\beta,\,\sigma} f(\alpha,\beta,\sigma\mid Y,X)$

Para uma descrição mais detalhada da regressão logística, você pode verificar o modelo de logit Bayesiano - explicação intuitiva? fio.

Para saber mais, consulte os seguintes livros:

Kruschke, J. (2014). Fazendo análise de dados bayesiana: um tutorial com R, JAGS e Stan. Academic Press.

Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004). Análise de dados bayesianos. Chapman & Hall / CRC.

— Tim
fonte

+1 Dada a forma como a pergunta é formulada, talvez eu enfatize um pouco mais essa diferença filosófica: nos mínimos quadrados comuns e na estimativa de probabilidade máxima, começamos com a pergunta "Quais são os melhores valores para (talvez para mais tarde usar)?" $\beta_i$ , enquanto na abordagem bayesiana completa, começamos com a pergunta "O que podemos dizer sobre os valores desconhecidos ?" $\beta_i$ e então talvez continue usando a média máxima a posteriori ou posterior se for necessária uma estimativa pontual.

— Jik

+1. Mais uma coisa que pode ser útil apontar para esclarecer a relação entre as abordagens bayesiana e OLS é que OLS pode ser entendida como média posterior sob um plano anterior (pelo menos até onde eu entendi). Seria ótimo se você pudesse elaborar um pouco isso em sua resposta.

— Ameba diz Reinstate Monica

@amoeba é um bom ponto, vou pensar nisso. Mas, por outro lado, eu não quero fazer a resposta abertamente longa, então há um ponto em ir aos detalhes.

— Tim

@amoeba FYI, adicionei um breve comentário sobre isso.

— Tim

Dado um conjunto de dados que , uma Regressão Linear Bayesiana modela o problema no da seguinte maneira: $D = (x_1,y_1), \ldots, (x_N,y_N)$ $x \in \mathbb{R}^d, y \in \mathbb{R}$

w \sim N (0, σ_{w}^{2} I_{d})

$w \sim \mathcal{N}(0, \sigma_w^2 I_d)$

$w$ é o vetor , portanto a distribuição anterior é uma gaussiana multivariada; e é a matriz de identidade . $(w_1, \ldots, w_d)^T$ $I_d$ $d\times d$

Probabilidade:

Y_{i} \sim N (w^{T} x_{i}, σ^{2})

$Y_i \sim \mathcal{N}(w^T x_i, \sigma^2)$

Assumimos que $Y_i \perp Y_j | w, i \neq j$

Por agora vamos usar a precisão ao invés da variância, , e . Também assumiremos que são conhecidos. $a = 1/\sigma^2$ $b = 1/\sigma_w^2$ $a,b$

O anterior pode ser declarado como

p (w) \propto \exp {- \frac{b}{2} w^{t} w}

$p(w) \propto \exp \Big\{ -\frac{b}{2} w^t w \Big\}$

E a probabilidade de

p (D | w) \propto \exp {- \frac{a}{2} (y - A w)^{T} (y - A w)}

$p(D|w) \propto \exp \Big\{ -\frac{a}{2} (y-Aw)^T (y-Aw) \Big\}$

onde e é um matriz em que o i-ésimo fileira é . $y = (y_1,\ldots,y_N)^T$ $A$ $n\times d$ $x_i^T$

Então o posterior é

p (w | D) \propto p (D | w) p (w)

$p(w|D) \propto p(D|w) p(w)$

Após muitos cálculos , descobrimos que

p (w | D) \sim N (w | μ, Λ^{- 1})

$p(w|D) \sim \mathcal{N}(w | \mu, \Lambda^{-1})$

onde ( é a matriz de precisão) $\Lambda$

Λ = a A^{T} A + b I_{d}

$\Lambda = a A^T A + b I_d$

μ = a Λ^{- 1} A^{T} y

$\mu = a \Lambda^{-1} A^T y$

Observe que é igual ao da regressão linear regular, porque, para o gaussiano, a média é igual ao modo. $\mu$ $w_{MAP}$

Além disso, podemos fazer uma álgebra sobre e obter a seguinte igualdade ( ): $\mu$ $\Lambda = aA^TA+bI_d$

μ = (A^{T} A + \frac{b}{a} I_{d})^{- 1} A^{T} y

$\mu = (A^T A + \frac{b}{a} I_d)^{-1} A^T y$

e compare com : $w_{MLE}$

w_{M L E} = (A^{T} A)^{- 1} A^{T} y

$w_{MLE} = (A^T A)^{-1} A^T y$

A expressão extra em corresponde ao anterior. Isso é semelhante à expressão para a regressão de Ridge, para o caso especial em que . A regressão de Ridge é mais geral porque a técnica pode escolher antecedentes impróprios (na perspectiva bayesiana). $\mu$ $\lambda = \frac{b}{a}$

Para a distribuição posterior preditiva:

p (y | x, D) = \int p (y | x, D, w) p (w | x, D) d w = \int p (y | x, w) p (w | D) d w

é possível calcular isso

y | x, D \sim N (μ^{T} x, \frac{1}{a} + x^{T} Λ^{- 1} x)

$y|x,D \sim \mathcal{N}(\mu^Tx, \frac{1}{a} + x^T \Lambda^{-1}x)$

Referência: Lunn et al. The BUGS Book

Para usar uma ferramenta MCMC como JAGS / Stan, verifique Doing Bayesian Data Analysis da Kruschke

— jpneto
fonte

Obrigado jpneto. Eu sinto que esta é uma ótima resposta, mas ainda não a entendo devido à falta de conhecimentos de matemática. Mas eu definitivamente lê-lo novamente depois de ganhar um pouco de matemática de habilidades

— TinglTanglBob

Isso é muito bom, mas a suposição de que a precisão é conhecida é um pouco incomum. Não é muito mais comum assumir uma distribuição gama inversa para a variação, ou seja, uma distribuição gama para a precisão?

— DeltaIV

+1. Você pode comentar um pouco mais sobre "A regressão de Ridge é mais geral porque a técnica pode escolher anteriores impróprios"? Eu não entendo. Eu pensei RR = Gaussian (apropriado) antes em .

w

$w$

— Ameba diz Reinstate Monica

@amoeba: O prior gaussiano é mas pode ser zero, o que resulta em um anterior impróprio, ou seja, resulta no MLE.

w \sim N (0, λ^{- 1} I_{d})

$w \sim N(0,\lambda^{-1} I_d)$

λ

$\lambda$

— jpneto

@ DeltaIV: claro, quando temos incerteza sobre um parâmetro, podemos modelar isso com um prior. A suposição de precisão conhecida é facilitar a localização de uma solução analítica. Geralmente, essas soluções analíticas não são possíveis e devemos usar aproximações, como o MCMC ou alguma técnica variacional.

— jpneto