Estou trabalhando em um problema de inferência de alta dimensão (em torno de 2000 parâmetros do modelo) para o qual somos capazes de executar com precisão a estimativa de MAP encontrando o máximo global do log-posterior usando uma combinação de otimização baseada em gradiente e um algoritmo genético.
Eu gostaria muito de poder fazer algumas estimativas das incertezas nos parâmetros do modelo, além de encontrar a estimativa do MAP.
Podemos calcular com eficiência o gradiente do log-posterior em relação aos parâmetros, portanto, a longo prazo, pretendemos usar o Hamiltonian MCMC para fazer algumas amostragens, mas por enquanto estou interessado em estimativas não baseadas em amostragem.
A única abordagem que conheço é calcular o inverso do hessiano no modo para aproximar o posterior como normal multivariado, mas mesmo isso parece inviável para um sistema tão grande, pois mesmo se calcularmos os elementos do Hessian Tenho certeza de que não conseguimos encontrar seu inverso.
Alguém pode sugerir que tipo de abordagens são normalmente usadas em casos como este?
Obrigado!
EDIT - informações adicionais sobre o problema
fundo
Esse é um problema inverso relacionado a um grande experimento de física. Temos uma malha triangular 2D que descreve alguns campos físicos, e nossos parâmetros de modelo são os valores físicos desses campos em cada vértice da malha. A malha possui cerca de 650 vértices, e modelamos 3 campos, e é daí que vêm nossos parâmetros de modelo de 2000.
Nossos dados experimentais são de instrumentos que não medem esses campos diretamente, mas quantidades que são funções não lineares complicadas dos campos. Para cada um dos diferentes instrumentos, temos um modelo avançado que mapeia os parâmetros do modelo para previsões dos dados experimentais, e uma comparação entre a previsão e a medição gera uma probabilidade logarítmica.
Em seguida, somamos as probabilidades de log de todos esses instrumentos diferentes e também adicionamos alguns valores anteriores ao log que aplicam algumas restrições físicas aos campos.
Consequentemente, duvido que esse 'modelo' se enquadre perfeitamente em uma categoria - não temos uma escolha de qual é o modelo, é ditado pela forma como funcionam os instrumentos reais que coletam nossos dados experimentais.
Conjunto de
dados O conjunto de dados é composto por imagens de 500x500 e existe uma imagem para cada câmera, portanto, o total de pontos de dados é 500x500x4 = .
Modelo de erro
Tomamos todos os erros no problema para serem gaussianos no momento. Em algum momento, eu poderia tentar passar para um modelo de erro t de estudante apenas para obter uma flexibilidade extra, mas as coisas ainda parecem funcionar bem apenas com gaussianos.
Exemplo de probabilidade
Este é um experimento de física do plasma, e a grande maioria de nossos dados vem de câmeras apontadas para o plasma com filtros específicos na frente das lentes para observar apenas partes específicas do espectro da luz.
Para reproduzir os dados, existem duas etapas; primeiro temos que modelar a luz que vem do plasma na malha, depois temos que modelar essa luz de volta à imagem da câmera.
Infelizmente, a modelagem da luz proveniente do plasma depende do que são efetivamente os coeficientes de taxa, que dizem quanta luz é emitida por diferentes processos, dados os campos. Essas taxas são previstas por alguns modelos numéricos caros; portanto, precisamos armazenar sua saída em grades e, em seguida, interpolar para procurar valores. Os dados da função de taxa são computados apenas uma vez - nós os armazenamos e depois construímos um spline quando o código é iniciado e, em seguida, esse spline é usado para todas as avaliações de função.
Suponhamos que e são as funções da taxa (que avaliam-se por interpolação), então a emissão no 'th vértice da malha é dada por
Como os erros são gaussianos, a probabilidade de log para essa câmera específica é
onde são os dados da câmera. O log-verossimilhança total é uma soma de 4 das expressões acima, mas para câmeras diferentes, todos com diferentes versões das funções de taxa de , porque eles estão olhando para diferentes partes do espectro de luz.
Exemplo anterior
Temos vários antecedentes que efetivamente apenas estabelecem limites superiores e inferiores em várias quantidades, mas eles tendem a não agir muito fortemente sobre o problema. Temos uma prévia que age fortemente, que aplica efetivamente a suavização do tipo Laplaciano aos campos. Ele também assume uma forma gaussiana: