a derivada parcial dos parâmetros wrt de probabilidade marginal de log é fornecida pelos seguintes
Como as entradas de dependem dos parâmetros, assim como derivados e inversa de . Isso significa que, quando um otimizador baseado em gradiente é empregado, a avaliação do gradiente em um determinado ponto (valor do parâmetro) requer recomputação da matriz de covariância. Na minha aplicação, isso não é viável, porque calcular a matriz de covariância do zero e calcular sua inversa em cada iteração de subida de gradiente são muito caros. Minha pergunta é quais são minhas opções para encontrar uma combinação bastante boa desses três parâmetros? e também não sei qual parâmetro otimizar primeiro e também gostaria de receber dicas sobre esse assunto.