Ajuste de hiperparâmetro na regressão de processo gaussiana
log(y|X,θ)=−12yTK−1yy−12log(det(K))−n2log(2π)log(y|X,θ)=−12yTKy−1y−12log(det(K))−n2log(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKKKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M=lIM=lIM=lIa,ba,ba,blll a derivada parcial dos parâmetros wrt de probabilidade marginal de log é fornecida pelos seguinteslog(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)log(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y}) Como as entradas de dependem dos parâmetros, assim como derivados e inversa de . Isso significa que, quando um otimizador baseado em gradiente é empregado, a avaliação do gradiente em um determinado ponto …