Problema de brinquedo de regressão de processo gaussiano

Eu estava tentando ganhar alguma intuição para a regressão do Processo Gaussiano, então fiz um simples problema de brinquedo 1D para experimentar. Tomei como entradas e como respostas. ('Inspirado' a partir de ) $x_i=\{1,2,3\}$ $y_i=\{1,4,9\}$ $y=x^2$

Para a regressão, usei uma função quadrática exponencial ao quadrado padrão:

k (x_{p}, x_{q}) = σ_{f}^{2} \exp (- \frac{1}{2 l^{2}} {| x_{p} - x_{q} |}^{2})

$k(x_p,x_q)=\sigma_f^2 \exp \left( - \frac{1}{2l^2} \left|x_p-x_q\right|^2 \right)$

Eu assumi que havia ruído com desvio padrão , de modo que a matriz de covariância se tornou: $\sigma_n$

K_{p q} = k (x_{p}, x_{q}) + σ_{n}^{2} δ_{p q}

$K_{pq} = k(x_p,x_q) + \sigma_n^2 \delta_{pq}$

Os hiperparâmetros foram estimados maximizando a probabilidade logarítmica dos dados. Para fazer uma previsão em um ponto , encontrei a média e a variância, respectivamente, pelo seguinte $(\sigma_n,l,\sigma_f)$ $x_\star$

μ_{x_{⋆}} = k_{⋆}^{T} (K + σ_{n}^{2} I)^{- 1} y

$\mu_{x_\star} = k_\star^T (\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} y$

σ_{x_{⋆}}^{2} = k (x_{⋆}, x_{⋆}) - k_{⋆}^{T} (K + σ_{n}^{2} I)^{- 1} k_{⋆}

$\sigma_{x_\star}^2 = k(x_\star,x_\star)-k_\star^T(\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} k_\star$

onde é o vetor da covariância entre e entradas, e é um vetor das saídas. $k_\star$ $x_\star$ $y$

Meus resultados para são mostrados abaixo. A linha azul é a média e as linhas vermelhas marcam os intervalos de desvio padrão. $1<x<3$

Os resultados

Não tenho certeza se isso está certo; minhas entradas (marcadas com 'X') não estão na linha azul. A maioria dos exemplos que vejo têm a média que cruza as entradas. Esta é uma característica geral que se espera?

regression gaussian-process

— Comp_Warrior
fonte

Se eu tivesse que adivinhar, nos exemplos que você estava vendo, não havia erro residual. Nesse caso, a linha passaria por todos os pontos.

— cara

@ Buy exatamente certo.

Respostas:

A função média que passa pelos pontos de dados geralmente é uma indicação de excesso de ajuste. A otimização dos hiperparâmetros maximizando a probabilidade marginal tenderá a favorecer modelos muito simples, a menos que haja dados suficientes para justificar algo mais complexo. Como você possui apenas três pontos de dados, que estão mais ou menos alinhados com pouco ruído, o modelo encontrado me parece bastante razoável. Essencialmente, os dados podem ser explicados como uma função subjacente linear com ruído moderado ou como uma função subjacente moderadamente não linear com pouco ruído. A primeira é a mais simples das duas hipóteses, e é favorecida pela "navalha de Occam".

— Dikran Marsupial
fonte

Obrigado pela contribuição. Você pode me dizer mais sobre "ajuste excessivo"; é uma característica positiva / negativa?

— 10133 Comp_Warrior

o excesso de ajuste é algo negativo, basicamente significa que o modelo está memorizando a variação aleatória nos dados, o que tende a piorar o desempenho da generalização. Idealmente, você deseja que o modelo aprenda a forma subjacente dos dados enquanto ignora o ruído que os contamina. A maioria dos bons livros didáticos de aprendizado de máquina abordará isso em um capítulo anterior.

— Dikran Marsupial

apenas por interesse, por que o voto negativo?

— Dikran Marsupial

Eu não te diminuí o voto; de fato eu votei!

— 10133 Comp_Warrior

sem problemas Comp_Warrior, eu não achei que fosse você, mas alguém recusou minha resposta e eu ficaria feliz em ter algum feedback sobre o porquê. Todos somos falíveis e, se houver algo errado na minha resposta, desejo corrigi-lo.

— Dikran Marsupial

Você está usando os estimadores de Kriging com a adição de um termo de ruído (conhecido como efeito pepita na literatura do processo gaussiano). Se o termo ruído foi definido como zero, ou seja,

σ_{n}^{2} δ_{p q} = 0

$\sigma^2_n \delta_{pq}=0$

suas previsões agiriam como uma interpolação e passariam pelos pontos de dados de amostra.

Isso parece bom para mim, no livro GP de Rasmussen mostra definitivamente exemplos em que a função média não passa por cada ponto de dados. Observe que a linha de regressão é uma estimativa para a função subjacente, e estamos assumindo que as observações são os valores da função subjacente mais algum ruído. Se a linha de regressão baseada nos três pontos, estaria essencialmente dizendo que não há ruído nos valores observados.

$\sigma_n = 0$

$l$

$l$ $l$

Como observado por Dikran Marsupial, esse é um recurso incorporado dos Processos Gaussianos, a probabilidade marginal penaliza modelos muito específicos e prefere aqueles que podem explicar muitos conjuntos de dados.

— Max S.
fonte