Estou usando o processo gaussiano (GP) para regressão.
No meu problema, é bastante comum que dois ou mais pontos de dados estejam próximos um do outro, em relação ao comprimento escalas do problema. Além disso, as observações podem ser extremamente barulhentas. Para acelerar os cálculos e melhorar a precisão da medição , parece natural mesclar / integrar aglomerados de pontos próximos um do outro, desde que eu me importe com previsões em uma escala de comprimento maior.
Eu me pergunto o que é uma maneira rápida, mas semiprincipal, de fazer isso.
Se dois pontos de dados estavam perfeitamente sobrepostos, , e o ruído da observação (ou seja, a probabilidade) é gaussiano, possivelmente heteroscedástico, mas conhecido , a maneira natural de proceder parece mesclá-los em um único ponto de dados com:
k=1,2 , para .
Valor observado que é uma média dos valores observados ponderados por sua precisão relativa: . y(1),Y(2) ˉ y =σ 2 y ( → x ( 2 ) )
Ruído associado à observação igual a: .
No entanto, como devo mesclar dois pontos próximos, mas sem sobreposição?
Eu acho que ainda deve ser uma média ponderada das duas posições, novamente usando a confiabilidade relativa. A lógica é um argumento do centro de massa (isto é, pense em uma observação muito precisa como uma pilha de observações menos precisas).
Para mesma fórmula acima.
Para o ruído associado à observação, gostaria de saber se, além da fórmula acima, devo adicionar um termo de correção ao ruído, porque estou movendo o ponto de dados. Basicamente, eu obteria um aumento na incerteza relacionada a e (respectivamente, variação do sinal e escala de comprimento da função de covariância). Não tenho certeza da forma desse termo, mas tenho algumas idéias tentativas de como calculá-lo, dada a função de covariância. ℓ 2
Antes de prosseguir, me perguntei se já havia algo lá fora; e se essa parece ser uma maneira sensata de proceder, ou se existem métodos melhores e rápidos .
A coisa mais próxima que pude encontrar na literatura é este artigo: E. Snelson e Z. Ghahramani, Sparse Gaussian Processes using Pseudo-inputs , NIPS '05; mas o método deles é (relativamente) envolvido, exigindo uma otimização para encontrar as pseudo-entradas.