Dúvidas sobre a derivação das equações de regressão de processo gaussiana em um artigo


9

Estou lendo esta pré-impressão do artigo e estou tendo dificuldades em seguir a derivação das equações para a regressão de processo gaussiana. Eles usam a configuração e notação de Rasmussen & Williams . Assim, o ruído aditivo, com média zero, estacionário e normalmente distribuído com variação é assumido:σnoise2

y=f(x)+ϵ,ϵN(0,σnoise2)

Um GP anterior com média zero é assumido para , o que significa que , é um vetor gaussiano com média 0 e matriz de covariânciaf(x) dNf={f(x1),,f(xd)}

Σd=(k(x1,x1)k(x1,xd)k(xd,x1)k(xd,xd))

A partir de agora, assumimos que os hiperparâmetros são conhecidos. Então a Eq. (4) do artigo é óbvia:

p(f,f)=N(0,(Kf,fKf,fKf,fKf,f))

Aí vêm as dúvidas:

  1. Equação (5):

    p(y|f)=N(f,σnoise2I)

    E [ y | f ] = f0 fE[f]=0 , mas acho que porque quando eu condiciono em , então que é um vetor constante e apenas é aleatório. Corrigir?E[y|f]=f0fy=c+ϵcϵ

  2. Enfim, é a Eq. (6) que é mais obscura para mim:

    p(f,f|y)=p(f,f)p(y|f)p(y)

    Essa não é a forma usual do teorema de Bayes. O teorema de Bayes seria

    p(f,f|y)=p(f,f)p(y|f,f)p(y)

    Eu entendo por que as duas equações são as mesmas: intuitivamente, o vetor de resposta depende apenas do vetor latente correspondente , condicionando assim em ou em deve levar à mesma distribuição. No entanto, isso é uma intuição, não uma prova! Você pode me ajudar a mostrar por queyff(f,f)

    p(y|f,f)=p(y|f)

Respostas:


1
  1. Se corrigirmos , Toda a incerteza em provém do ruído. Portanto, para a equação (5) do artigo, temos que, , temos em cada ponto ruído independente com variação e média zero . Adicionamos a média inicial e obtemos a resposta.y f σ 2 n o i s e 0fyfσnoise20
  2. Uma maneira de provar a igualdade sugerida é encontrar a distribuição em no lado esquerdo e no lado direito da qualidade. Ambos são gaussianos, para o lado esquerdo já sabemos a resposta. Para o lado direito, procedemos de maneira semelhante. Vamos encontrar a distribuição condicional para . Pelo resultado da primeira parte, sabemos: Usando regras de probabilidade, é fácil integrar de
    p(y|f,f)=p(y|f)
    (y,y)
    p(y,y|f,f)=N((f,f),σnoise2I).
    yY y * p ( y | f , f * ) = N ( f , σ 2 n o i s e I ) = P ( Y | f ) .(y,y), como a matriz de covariância é diagonal e os vetores e são independentes. Ao fazer isso, obtemos: yy
    p(y|f,f)=N(f,σnoise2I)=p(y|f).
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.