Simulando o posterior de um processo gaussiano

Pela primeira vez (desculpe imprecisões / erros) , observei os processos gaussianos e, mais especificamente, assisti a este vídeo de Nando de Freitas . As notas estão disponíveis online aqui .

Em algum momento, ele extrai $10$ amostras aleatórias de um normal multivariado gerado pela construção de uma matriz de covariância baseada em um núcleo gaussiano (exponencial de distâncias quadradas no eixo $x$ ). Essas amostras aleatórias formam os gráficos suaves anteriores que se tornam menos dispersos à medida que os dados se tornam disponíveis. Por fim, o objetivo é prever, modificando a matriz de covariância e obtendo a distribuição Gaussiana condicional nos pontos de interesse.

O código inteiro está disponível em um excelente resumo de Katherine Bailey aqui , que por sua vez credita um repositório de código de Nando de Freitas aqui . Eu publiquei o código Python aqui por conveniência.

Começa com (em vez de acima) funções anteriores e introduz um "parâmetro de ajuste". $3$ $10$

Eu traduzi o código para Python e [R] , incluindo os gráficos:

Aqui está o primeiro pedaço de código em [R] e o gráfico resultante de três curvas aleatórias geradas por um kernel Gaussiano com base na proximidade dos valores no conjunto de testes: $x$

O segundo pedaço de código R é mais cabeludo e começa simulando quatro pontos de dados de treinamento, o que eventualmente ajudará a diminuir a propagação entre as possíveis curvas (anteriores) em torno das áreas onde esses pontos de dados de treinamento estão. A simulação do valor para esses pontos de dados é como uma função . Podemos ver o "aperto das curvas em torno dos pontos": $y$ $\text{sin}()$

O terceiro pedaço do código R trata da plotagem da curva dos valores médios estimados (o equivalente da curva de regressão), correspondendo aos valores de (veja o cálculo abaixo) e seus intervalos de confiança: $50$ ${\bf\mu}$

PERGUNTA: Quero pedir uma explicação das operações que ocorrem quando se passa do GP anterior para o posterior.

Especificamente, eu gostaria de entender esta parte do código R (no segundo bloco) para obter os meios e o sd:

# Apply the kernel function to our training points (5 points):

K_train = kernel(Xtrain, Xtrain, param)                          #[5 x 5] matrix

Ch_train = chol(K_train + 0.00005 * diag(length(Xtrain)))        #[5 x 5] matrix

# Compute the mean at our test points:

K_trte = kernel(Xtrain, Xtest, param)                            #[5 x 50] matrix
core = solve(Ch_train) %*% K_trte                                #[5 x 50] matrix
temp = solve(Ch_train) %*% ytrain                                #[5 x 1] matrix
mu = t(core) %*% temp                                            #[50 x 1] matrix

$\bf a$ $\bf a$ K_train $\bf \Sigma_{aa}$ Ch_train $\bf \color{orange}{L_{aa}}$ $\bf a$ $\bf e$ K_trte $\bf \Sigma_{ae}$ $\hat \mu$ $50$

\begin{aligned} (Eq.1) & \hat{μ} & = {[\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]}^{T} \underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 1]}{y_{t r}} \\ dimensões = [50. \times 1] \end{aligned}

$\begin{align} {\bf \hat \mu}&={\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T \, \underset{\color{blue}{[5 \times 5]}}{\color{orange}{L_{aa}}^{-1}} \, \underset{\color{blue}{[5 \times 1]}}{y_{tr}}}\bf\tag{Eq.1}\\ &\text{dimensions}=\color{red}{\left[50 \times 1\right]} \end{align}$

# Compute the standard deviation:

tempor = colSums(core^2)                                          #[50 x 1] matrix

# Notice that all.equal(diag(t(core) %*% core), colSums(core^2)) TRUE

s2 = diag(K_test) - tempor                                        #[50 x 1] matrix
stdv = sqrt(s2)                                                   #[50 x 1] matrix

\begin{aligned} (Eq.2) & \hat{var} & = diag (Σ_{e e}) - diag [{[\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]}^{T} [\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]] \\ = d [\begin{matrix} 1 & \dots \\ 1 \\ ⋱ \\ \dots & 1 \\ \dots & 1 \end{matrix}] - d [{[\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]}^{T} [\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]] \\ dimensões = [50. \times 1] \end{aligned}

$\begin{align} {\bf \hat{\text{var}}}&=\text{diag}\left({\bf \Sigma_{ee}}\right)-\text{diag} \left[\bf \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \bf \tag{ Eq.2} \\ &=\text{d}\small{\begin{bmatrix}1&&\dots&\\&1\\&&\ddots\\&&\dots&1&\\ &&&\dots&1\end{bmatrix}}-\bf \text{d} \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right]\\ &\text{dimensions} = \color{red}{\left[50 \times 1\right]} \end{align}$

Como é que isso funciona?

$\hat \mu$

Ch_post_gener = chol(K_test + 1e-6 * diag(n) - (t(core) %*% core))
m_prime = matrix(rnorm(n * 3), ncol = 3)
sam = Ch_post_gener %*% m_prime
f_post = as.vector(mu) + sam

\begin{aligned} (Eq.3) & f_{postar} & = \hat{μ} + [\underset{[50. \times 50.]}{{eu}_{e e}} - [{[\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]}^{T} [\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]]] [\underset{[50. \times 3]}{N (0 0, 1)}] \\ dimensões = [50. \times 3] \end{aligned}

$\begin{align} f_{\text{post}}&=\bf \hat \mu +\small \left[ \underset{\color{blue}{[50 \times 50]}} {\color{orange}{L_{ee}}}\, \, \, - \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \right] \left[\underset{\color{green}{[50 \times 3]}}{\mathscr N(0,1)}\right]\tag{Eq.3} \\ &\text{dimensions}= \color{red}{\left[50 \times 3\right]} \end{align}$

— Antoni Parellada
fonte

No último gráfico, os intervalos de confiança não devem "beliscar" nos pontos conhecidos?

— GeoMatt22

@ GeoMatt22 Eles meio que fazem, você não acha?

— Antoni Parellada

$e$ $a$ $a$ $e$ $*$

[\begin{matrix} uma \\ e \end{matrix}] \sim N ([\begin{matrix} μ_{uma} \\ μ_{e} \end{matrix}], [\begin{matrix} Σ_{uma uma} & Σ_{uma e} \\ {Σ_{uma e}}^{T} & Σ_{e e} \end{matrix}])

${\bf\begin{bmatrix} a\\ \bf e\end{bmatrix}}\sim \mathscr N\left( \begin{bmatrix}\bf \mu_a\\\mu_e \end{bmatrix}\,,\begin{bmatrix}\bf \Sigma_{aa}&\bf \Sigma_{ae} \\ {\bf \Sigma_{ae}}^T & \bf \Sigma_{ee}\end{bmatrix}\right)$

$E({\bf x}_1 | {\bf x}_2)= {\boldsymbol \mu}_1 + \Sigma_{12} \Sigma^{-1}_{22} ({\bf x}_2- {\boldsymbol \mu}_2)$ $[50 \times 50]$ $\bf \Sigma_{aa}$ $[50 \times 5]$ $\bf \Sigma_{ae}$ , uma transposição será necessária para tornar as matrizes congruentes em:

E (e | uma) = μ_{e} + {Σ_{uma e}}^{T} {Σ_{uma uma}}^{- 1} (y - μ_{uma})

$E ({\bf e\vert a}) = {\bf \mu_e} + {\bf \Sigma_{ae}}^T {\bf \Sigma_{aa}}^{-1}\,\left ({\bf y}-{\bf \mu_{a}}\right)$

μ_{a} = μ_{e} = 0

${\bf \mu_{a}} = {\bf \mu_{e}}=0$

E (e | uma) = {Σ_{uma e}}^{T} {Σ_{uma uma}}^{- 1} y_{t r}

$E ({\bf e\vert a}) = {\bf \Sigma_{ae}}^T {\bf \Sigma_{aa}}^{-1}\,{\bf y_{tr}}$

Entre na decomposição de Cholesky (que novamente codificarei em laranja como no OP):

\begin{aligned} E (e | uma) & = {Σ_{uma e}}^{T} \underset{< - - α - - >}{{Σ_{uma uma}}^{- 1} y_{t r}} \\ = {Σ_{uma e}}^{T} {({eu}_{uma uma} {eu}_{uma uma}^{T})}^{- 1} y_{t r} \\ = {Σ_{uma e}}^{T} {eu}_{uma uma}^{- T} {eu}_{uma uma}^{- 1} y_{t r} \\ (*) & = {Σ_{uma e}}^{T} {eu}_{uma uma}^{- T} \underset{< - m - >}{{eu}_{uma uma}^{- 1} y_{t r}} \end{aligned}

$\begin{align*} E ({\bf e\vert a}) &= {\bf \Sigma_{ae}}^T\,\, \,\underset{\color{gray}{<--\alpha-->}}{{\bf \Sigma_{aa}}^{-1}\,{\bf y_{tr}}}\\ &={\bf \Sigma_{ae}}^T {\bf \color{orange}{(L_{aa}L_{aa}^T)}}^{-1}\,{\bf y_{tr}}\\ &= {\bf \Sigma_{ae}}^T {\bf \color{orange}{L_{aa}^{-T}L_{aa}^{-1}}}\,{\bf y_{tr}}\\ &= {\bf \Sigma_{ae}}^T {\bf \color{orange}{L_{aa}^{-T}}\,\,\,\,\,\, \underset {\color{gray}{ <-m->}}{\color{orange}{L_{aa}^{-1}}{\bf y_{tr}}}} \tag {*} \end{align*}$

$\bf m =\color{orange}{{\bf L_{aa}}^{-1}}\,{\bf y_{tr}}$ $\color{orange}{\bf L_{aa}} \bf m= {\bf y_{tr}}$ $\bf m$

$\bf B^T A^T = (A\,B)^T$

\begin{aligned} \hat{μ} & = {[\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]}^{T} \underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 1]}{y_{t r}} \\ = (Σ_{uma e}^{T} {eu}_{uma uma}^{- T}) ({eu}_{uma uma}^{- 1} y_{t r}) \\ dimensões = [50. \times 1] \end{aligned}

$\begin{align} {\bf \hat \mu}&={\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T \, \underset{\color{blue}{[5 \times 5]}}{\color{orange}{L_{aa}}^{-1}} \, \underset{\color{blue}{[5 \times 1]}}{y_{tr}}}\\ &=\bf \left( \Sigma_{ae}^T \color{orange}{ L_{aa}^{-T}} \right) \left(\color{orange}{ L_{aa}^{-1}}\, y_{tr} \right)\\ &\text{dimensions} = \color{red}{\left[50 \times 1\right]} \end{align}$

dado que

{[\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]}^{T} = {\underset{[50. \times 5]}{Σ_{uma e}}}^{T} \underset{[5 \times 5]}{{eu}_{uma uma}^{- 1 T}}

$\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T = \underset{\color{blue}{[50 \times 5]}}{\Sigma_{ae}}^T \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1T}}\, \, \,$

Um raciocínio semelhante seria aplicado à variação, começando com a fórmula da variação condicional em um gaussiano multivariado:

v uma r (x_{1} | x_{2}) = Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21}

${\rm var}({\bf x}_1|{\bf x}_2)= \Sigma_{11} -\Sigma_{12}\Sigma^{-1}_{22}\Sigma_{21}$

que no nosso caso seria:

\begin{aligned} {var}_{{\hat{μ}}_{e}} & = Σ_{e e} - Σ_{uma e}^{T} Σ_{uma uma}^{- 1} Σ_{uma e} \\ = Σ_{e e} - Σ_{uma e}^{T} {[{eu}_{uma uma} {eu}_{uma uma}^{T}]}^{- 1} Σ_{uma e} \\ = Σ_{e e} - Σ_{uma e}^{T} {[{eu}_{uma uma}^{- 1}]}^{T} {eu}_{uma uma}^{- 1} Σ_{uma e} \\ = Σ_{e e} - {[{eu}_{uma uma}^{- 1} Σ_{uma e}]}^{T} {eu}_{uma uma}^{- 1} Σ_{uma e} \end{aligned}

$\begin{align*} \bf \text{var}_{\hat\mu_{\bf e}} &= \bf \Sigma_{ee} - \Sigma_{ae}^T\Sigma_{aa}^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \Sigma_{ae}^T \left[ L_{aa}L_{aa}^T\right]^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \Sigma_{ae}^T \left[ L_{aa}^{-1}\right]^TL_{aa}^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \left[ L_{aa}^{-1} \Sigma_{ae}\right]^T L_{aa}^{-1}\Sigma_{ae} \end{align*}$

e chegando na Eq. (2):

\begin{aligned} {var}_{{\hat{μ}}_{e}} & = d [K_{e e} - {[\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]}^{T} [\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]] \\ dimensões = [50. \times 1] \end{aligned}

$\begin{align} \text{var}_{\hat\mu_{\bf e}}&=\text{d}\left[ \bf K_{ee} - \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right]\\ &\text{dimensions}=\color{red}{\left[50 \times 1\right]} \end{align}$

Podemos ver que a Eq. (3) no OP é uma maneira de gerar curvas aleatórias posteriores condicionais aos dados (conjunto de treinamento) e utilizar um formulário de Cholesky para gerar três sorteios aleatórios normais multivariados :

\begin{aligned} f_{postar} & = \hat{μ} + [{var}_{{\hat{μ}}_{e}}] [rnorm \sim (0 0, 1)] \\ = \hat{μ} + [\underset{[50. \times 50.]}{{eu}_{e e}} - [{[\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]}^{T} [\underset{[5 \times 5]}{{eu}_{uma uma}^{- 1}} \underset{[5 \times 50.]}{Σ_{uma e}}]]] [\underset{[50. \times 3]}{rand.norm's}] \\ dimensões = [50. \times 3] \end{aligned}

$\begin{align} f_{\text{post}} &= {\bf \hat \mu} + \left[ \text{var}_{\hat\mu_{\bf e}}\right][\text{rnorm}\sim (0,1)]\\ &=\bf \hat \mu + \left[ \underset{\color{blue}{[50 \times 50]}} {\color{orange}{L_{ee}}}\, \, \, - \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \right] \left[\underset{\color{green}{[50 \times 3]}}{\text{rand.norm's}}\right]\\ &\text{dimensions}= \color{red}{\left[50 \times 3\right]} \end{align}$

— Antoni Parellada
fonte

Isso é de um livro ou papel? Você tem uma maneira robusta de calcular média e variação condicionais quando a matriz de covariância está EXTREMAMENTE mal condicionada (mas sem excluir ou mesclar pontos de dados quase dependentes (próximos)) em dupla precisão? A precisão múltipla em software funciona, mas possui uma desaceleração de magnitude de 2,5 a 3 vezes em comparação com a precisão dupla de hardware; portanto, mesmo um algoritmo de precisão dupla "lento" será bom. Eu não acho que Cholesky corta isso. Também não acho que o QR o faça quando a matriz de covariância está muito mal condicionada. Usando backsolves padrão, parece precisar de precisão de ocutuple.

— Mark L. Stone