Quando um jacobiano analítico está disponível, é melhor aproximar o hessiano por , ou por diferenças finitas do jacobiano?

Digamos que eu esteja computando alguns parâmetros do modelo, minimizando a soma dos resíduos ao quadrado e assumindo que meus erros são gaussianos. Meu modelo produz derivadas analíticas, portanto, o otimizador não precisa usar diferenças finitas. Quando o ajuste estiver completo, desejo calcular erros padrão dos parâmetros ajustados.

Geralmente, nessa situação, o Hessiano da função de erro é relacionado à matriz de covariância por: que é a variação dos resíduos.

σ^{2} H^{- 1} = C

$\sigma^2 H^{-1} = C$

σ^{2}

$\sigma^2$

Quando nenhuma derivada analítica do erro está disponível, normalmente é impraticável calcular o Hessiano, portanto é tomado como uma boa aproximação. $J^TJ$

No entanto, no meu caso, eu tenho um J analítico, por isso é relativamente barato para eu calcular H diferenciando finitamente J.

Portanto, minha pergunta é a seguinte: Seria mais preciso aproximar H usando meu J exato e aplicando a aproximação acima, ou aproximar H por J finito com diferenciação?

standard-error fitting

— Colin K
fonte

Boa pergunta. Primeiro, lembre-se de onde vem essa aproximação . Seja seus pontos de dados, seja seu modelo e sejam os parâmetros do seu modelo. Então a função objetivo do problema de mínimos quadrados não linear é onde é o vetor dos resíduos, . O hessiano exato da função objetivo é . Portanto, o erro nesta aproximação é $H \approx J^T J$ $(x_i, y_i)$ $f(\cdot)$ $\beta$ $\frac{1}{2} r^T r$ $r$ $r_i = y_i - f(x_i, \beta)$ $H = J^T J + \sum r_i \nabla^2 r_i$ $H - J^T J = \sum r_i \nabla^2 r_i$ . É uma boa aproximação quando os resíduos são pequenos; ou quando a segunda derivada dos resíduos for pequena. Os mínimos quadrados lineares podem ser considerados um caso especial em que a segunda derivada dos resíduos é zero.

Quanto à aproximação por diferenças finitas, é relativamente barato. Para calcular uma diferença central, você precisará avaliar o jacobiano mais vezes (uma diferença a frente custará avaliações adicionais, para que eu não me incomode). O erro da aproximação diferença central é proporcional à e , em que é o tamanho do passo. O tamanho ideal da etapa é , onde $2n$ $n$ $\nabla^4 r$ $h^2$ $h$ $h \sim \epsilon^\frac{1}{3}$ $\epsilon$ é precisão da máquina. Portanto, a menos que as derivadas dos resíduos estejam explodindo, é bem claro que a aproximação da diferença finita deve ser MUITO melhor. Devo salientar que, embora o cálculo seja mínimo, a contabilidade não é trivial. Cada diferença finita no jacobiano fornecerá uma linha do hessiano para cada resíduo. Você precisará remontar o Hessian usando a fórmula acima.

Existe, no entanto, uma terceira opção. Se o seu solucionador usar um método Quasi-Newton (DFP, BFGS, Bryoden etc.), ele já estará aproximando o Hessian a cada iteração. A aproximação pode ser bastante boa, pois usa a função objetivo e os valores de gradiente de cada iteração. A maioria dos solucionadores lhe dará acesso à estimativa final do Hessian (ou seu inverso). Se isso é uma opção para você, eu usaria isso como estimativa de Hessian. Já está computado e provavelmente será uma estimativa muito boa.

— Bill Woessner
fonte

Excelente resposta, obrigado. Justificar isso com uma comparação do erro de estimativa em cada caso é muito esclarecedor. Posso perguntar como você sabe que é o passo ideal para diferenças finitas? Eu nunca vi isso antes.

ϵ^{1 / 3}

$\epsilon^{1/3}$

— Colin K

Esse é um velho truque para equilibrar erro de truncamento x erro de arredondamento. Obviamente, para minimizar o erro de truncamento, você quer fazer tão pequeno quanto possível. Mas quando fica pequeno demais, você começa a receber um erro de arredondamento significativo. A derivação é relativamente direta. Assumindo uma diferença central, o erro de truncamento é proporcional a . O erro de arredondamento é sempre proporcional a . Adicione os dois e minimize ao longo de . Você obtém .

h

$h$

h

$h$

h^{2} f^{‴} (x)

$h^2 f'''(x)$

\frac{ϵ f (x)}{h}

$\frac{\epsilon f(x)}{h}$

h

$h$

h \sim ϵ^{\frac{1}{3}}

$h \sim \epsilon^\frac{1}{3}$

— Bill Woessner

Isso vale apenas para diferenças centrais. Para diferenças avançadas, o tamanho ideal da etapa é . Existem outros truques também. Por exemplo, verifique se você realmente sabe o que é . Eu sei que isso parece bobagem, mas coisas estranhas podem acontecer na aritmética de ponto flutuante. Aqui está uma maneira simples de ter certeza de que o valor correto de : . Matematicamente, é claro, . Mas se você usar valores que não podem ser exatamente representados no ponto flutuante (como ), verá que esse não é o caso.

h \sim ϵ^{\frac{1}{2}}

$h \sim \epsilon^\frac{1}{2}$

h

$h$

h

$h$ h_actual = (x + h_desired) - x

h_{a c t u a l} = h_{d e s i r e d}

$h_{actual} = h_{desired}$

h = 0.0001

$h = 0.0001$

— Bill Woessner

Talvez esse conteúdo possa ser adicionado à sua resposta, e não aos comentários. Dessa forma, os usuários futuros não precisam percorrer uma seção de comentários estendida para encontrar material que tenha relação direta com as reivindicações feitas na resposta.

— Sycorax diz Restabelecer Monica

Ó meu Deus. Uma aproximação quase-Newton do Hessian pode ser uma estimativa terrível do Hessian e, portanto, resultar em uma estimativa muito pobre da matriz de covariância. Pode servir bem para facilitar a progressão do algoritmo ao ideal, mas pode ser bastante ruim como uma estimativa do Hessian.

— Mark L. Stone