Estou lendo o livro GPML e, no capítulo 2 (página 15) , ele mostra como fazer a regressão usando o Gaussian Process (GP), mas estou tendo dificuldade para entender como funciona.
Na inferência bayesiana para modelos paramétricos, primeiro escolhemos um prior nos parâmetros do modelo , ou seja, ; segundo, dados os dados de treinamento , calculamos a probabilidade ; e finalmente temos o posterior de como , que será usado na distribuição preditiva , e acima é o que fazemos na inferência bayesiana para modelos paramétricos, certo?p ( θ ) D p ( D | θ ) θ p ( θ | D ) p ( y ∗ | x ∗ , D ) = ∫ p ( y ∗ | x ∗ , θ ) p ( θ | D ) d θ
Bem, como dito no livro, GP não é paramétrico, e até onde eu entendi, depois de especificar a função média e a função de covariância , temos uma função GP sobre , , e este é o prior de . Agora eu tenho um conjunto de dados de treinamento sem ruído thought Eu pensei que deveria calcular a probabilidade e depois o posterior e, finalmente, use o posterior para fazer previsões.K ( x , x ' ) f f ~ L P ( m , k ) f D = { ( x 1 , f 1 ) , . . . , ( x n , f n ) } p ( D | f ) p ( f | D )
No entanto, não é isso que o livro faz! Quero dizer, depois de especificar o , ele não calcula a probabilidade e o posterior, mas apenas avança para a previsão preditiva.
Questão:
1) Por que não calcular a probabilidade e posterior? Só porque o GP não é paramétrico, então não fazemos isso?
2) Como é feito no livro (páginas 15 a 16), deriva a distribuição preditiva por meio da distribuição conjunta do conjunto de dados de treinamento e do conjunto de dados de teste , denominado como conjunto anterior . Tudo bem, isso me confunde muito, por que juntá-los?f ∗
3) Eu vi alguns artigos chamar o latente variável, por quê?