As previsões da regressão do processo gaussiano bayesiano são normalmente distribuídas?

Isso não está diretamente relacionado à minha outra pergunta , embora o tópico seja o mesmo. Também é provavelmente uma pergunta muito trivial, mas tenha paciência :) Eu estava discutindo com um colega sobre o uso da regressão de processo gaussiana, e ele fez duas afirmações com as quais não concordo:

O GPR pode ser usado apenas para modelar uma resposta quando os preditores são normalmente distribuídos.
a resposta de um modelo GPR é sempre normalmente distribuída.

Acredito que a primeira asserção é falsa (na verdade, o GPR não faz suposições sobre a distribuição conjunta dos preditores), enquanto a segunda só é verdadeira se os hiperparâmetros forem fixos. Entretanto, se seguirmos uma abordagem totalmente bayesiana e derivarmos a distribuição de probabilidade posterior dos hiperparâmetros, a distribuição preditiva posterior não será mais normalmente distribuída: é apenas a distribuição da resposta, condicionada aos hiperparâmetros e às observações , que é distribuído normalmente. Nas fórmulas:

y = f (x) + ϵ, ϵ \sim N (0, σ_{n o i s e}^{2})

$y=f(\mathbf{x})+\epsilon, \quad \epsilon\sim N(0,\sigma^2_{noise})$

e assuma um GP antes de $f(\mathbf{x})$ . Deixei $\{(\mathbf{x_1},y_1,)\dots,(\mathbf{x_d},y_d,)\}$ como um conjunto de observações, a distribuição de probabilidade posterior dos hiperparâmetros é

p (θ | y) \propto p (y | θ) p (θ)

$p(\boldsymbol{\theta}|\mathbf{y})\propto p(\mathbf{y}|\boldsymbol{\theta})p(\boldsymbol{\theta})$

Agora, a distribuição de um novo vetor de resposta , condicional aos hiperparâmetros e às observações, ou seja, , é normalmente distribuído (certo?). Entretanto, a distribuição preditiva posterior é $\mathbf{y^*}$ $p(\mathbf{y^*}|\boldsymbol{\theta},\mathbf{y})$

p (y^{*} | y) = \int p (y^{*}, θ | y) p (θ) d θ = \int p (y^{*} | θ, y) p (θ | y) p (θ) d θ

$p(\mathbf{y^*}|\mathbf{y})=\int{p(\mathbf{y^*},\boldsymbol{\theta}|\mathbf{y})p(\boldsymbol{\theta})}d\boldsymbol{\theta}=\int{p(\mathbf{y^*}|\boldsymbol{\theta},\mathbf{y})p(\boldsymbol{\theta}|\mathbf{y})p(\boldsymbol{\theta})}d\boldsymbol{\theta}$

Na integral, apenas o termo é um pdf normal (multivariado). e podem ter qualquer distribuição que considerarmos apropriada para modelar o problema estatístico em questão. Não há razão para pensar que o wrt integral do produto dessas três distribuições é normalmente distribuído, portanto, não podemos dizer que o vetor seja normalmente distribuído. Isso está correto? $p(\mathbf{y^*}|\boldsymbol{\theta},\mathbf{y})$ $p(\mathbf{y}|\boldsymbol{\theta})$ $p(\boldsymbol{\theta})$ $\boldsymbol{\theta}$ $\mathbf{y^*}|\mathbf{y}$

regression bayesian gaussian-process

— DeltaIV
fonte

O GPR não faz suposições estatísticas sobre os preditores. Eles nem precisam ser números! Tudo o que você precisa é de uma função média anterior e uma função de covariância, que também pode ser definida para dados não numéricos (uniões discretas, cadeias, conjuntos, etc.).
Isso é verdade ou assumido quando as pessoas falam sobre GPR, porque seu aspecto mais interessante é que ele permite uma inferência exata: basicamente, tudo se resume à álgebra linear. No momento em que você introduz mais flexibilidade, por exemplo, ruído não gaussiano, antes dos hiperparâmetros, você perde essa propriedade importante e precisa recorrer à inferência aproximada. Dito isto, mesmo assim, normalmente existem vantagens computacionais ao usar modelos baseados em GPR.

— Markus Mottl
fonte

niiice :) obrigado. Vejo que você conhece o GPR. Que tal dar uma olhada também na minha outra pergunta , se você ainda não fez isso? Obrigado novamente!

— DeltaIV 19/11/16