Ajuste de hiperparâmetro na regressão de processo gaussiana

\log (y | X, θ) = - \frac{1}{2} y^{T} K_{y}^{- 1} y - \frac{1}{2} \log (det (K)) - \frac{n}{2} \log (2 π)

$\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)$

K

$K$

K_{i j} = k (x_{i}, x_{j}) = b^{- 1} \exp (- \frac{1}{2} (x_{i} - x_{j})^{T} M (x_{i} - x_{j})) + a^{- 1} δ_{i j}

$K_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}$

M = l I

$M=lI$

a, b

$a,b$

l

$l$

a derivada parcial dos parâmetros wrt de probabilidade marginal de log é fornecida pelos seguintes

\frac{\log (y | X, θ)}{d θ} = \frac{1}{2} t r a c e (K^{- 1} \frac{d K}{d θ}) + \frac{1}{2} (y \frac{d K}{d θ} K^{- 1} \frac{d K}{d θ} y)

$\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y})$

Como as entradas de dependem dos parâmetros, assim como derivados e inversa de . Isso significa que, quando um otimizador baseado em gradiente é empregado, a avaliação do gradiente em um determinado ponto (valor do parâmetro) requer recomputação da matriz de covariância. Na minha aplicação, isso não é viável, porque calcular a matriz de covariância do zero e calcular sua inversa em cada iteração de subida de gradiente são muito caros. Minha pergunta é quais são minhas opções para encontrar uma combinação bastante boa desses três parâmetros? e também não sei qual parâmetro otimizar primeiro e também gostaria de receber dicas sobre esse assunto. $K$ $K$

— bfaskiplar
fonte

Tive sucesso ao usar o HMC para obter amostras de hiperparâmetros GP para conjuntos de dados de tamanho modesto.

— Sycorax diz Restabelecer Monica

Olá @Sycorax, você poderia nos dizer como usou essa técnica para resolver esse problema? Tenho o mesmo problema que o OP pediu e tenho pensado em usar o MCMC para resolvê-lo, mas ainda não sei como fazer isso.

— Willian Fuks

Acabei de codificar o GP em Stan. Os hiperparâmetros GP foram declarados como parâmetros do modelo e inferidos de acordo. Isso gerou um conjunto de previsões para cada iteração do HMC. Gelman ilustra como tudo isso funciona no BDA3.

— Sycorax diz Restabelecer Monica

Você está certo que precisa de um novo cálculo da matriz de covariância em cada iteração de subida de gradiente. Portanto, se o cálculo da matriz não for viável para sua configuração, acho que você não poderá usar a otimização da probabilidade marginal baseada em gradiente.

Minha sugestão é usar métodos sem gradiente para o ajuste de hiperparâmetros, como pesquisa em grade, pesquisa aleatória ou pesquisa baseada em otimização bayesiana . Esses métodos são amplamente utilizados para hiperparâmetros de otimização de outros algoritmos de aprendizado de máquina, por exemplo, SVMs.

Sugiro a pesquisa em grade para sua primeira tentativa. Basicamente, você forma uma tabela (grade) de possíveis hiperparâmetros, tenta todos e procura o melhor desempenho de validação (ou melhor probabilidade marginal).

A pesquisa em grade produziria um conjunto sub-ótimo de hiperparâmetros, e você deverá especificar a grade sozinho (dica: criar grade em uma escala de log), mas é necessário muito menos computação. (e você não precisa de gradiente!)

Se você não está familiarizado com a pesquisa em grade, pode procurar na Wikipedia: Otimização de hiperparâmetro - Pesquisa em grade

— Sangwoong Yoon
fonte