O Hessiano empírico de um estimador M pode ser indefinido?

15

Jeffrey Wooldridge em sua Análise Econométrica de Dados de Painel e Seção Transversal (página 357) diz que o Hessian empírico "não é garantido que seja definido positivo, ou mesmo semidefinido positivo, para a amostra em particular com a qual estamos trabalhando".

Isso me parece errado, pois (problemas numéricos à parte) o Hessian deve ser positivo semidefinido como resultado da definição do estimador M como o valor do parâmetro que minimiza a função objetivo da amostra em questão e o fato bem conhecido de que no mínimo (local), o hessiano é semidefinido positivo.

Meu argumento está certo?

[EDIT: A declaração foi removida no 2º ed. do livro. Veja o comentário.]

ANTECEDENTES Suponha que seja um estimador obtido minimizando que denota a ésima observação. $\widehat \theta_N$

\frac{1}{N} \sum_{i = 1}^{N} q (w_{i}, θ),

${1 \over N}\sum_{i=1}^N q(w_i,\theta),$

w_{i}

$w_i$

i

$i$

Vamos denotar o Hessian de por $q$ $H$ ,

H (q, θ)_{i j} = \frac{\partial^{2} q}{\partial θ_{i} \partial θ_{j}}

$H(q,\theta)_{ij}=\frac{\partial^2 q}{\partial \theta_i \partial \theta_j}$

A covariância assintótica de envolve onde é o verdadeiro valor do parâmetro. Uma maneira de estimar isso é usar o método Hesssiano empírico $\widehat \theta_n$ $E[H(q,\theta_0)]$ $\theta_0$

\hat{H} = \frac{1}{N} \sum_{i = 1}^{N} H (w_{i}, {\hat{θ}}_{n})

$\widehat H=\frac{1}{N}\sum_{i=1}^N H(w_i,\widehat \theta_n)$

É o definiteness de que está em questão. $\widehat H$

— Jyotirmoy Bhattacharya
fonte

1

@Jyotirmoy, e se o mínimo acontecer no limite do seu espaço de parâmetro?

— cardeal

@cardeal. Você está certo, meu argumento não funcionará nesse caso. Mas Wooldridge está considerando o caso em que o mínimo está no interior. Ele não está errado nesse caso?

— Jyotirmoy Bhattacharya

@Jyotirmoy, certamente pode ser apenas positivo semidefinido. Pense em funções lineares ou em uma função em que o conjunto de pontos mínimos forma um polítopo convexo. Para um exemplo mais simples, considere qualquer polinômio

f (x) = x^{2 n}

$f(x)=x^{2n}$ em

x = 0

$x = 0$ .

— cardeal

1

@cardeal. Verdade. O que me preocupa é a frase "mesmo semidefinido positivo" na declaração citada.

— Jyotirmoy Bhattacharya

@Jyotirmoy, existe uma forma específica do estimador M fornecida no livro que você poderia fornecer? Também dê espaço ao parâmetro em consideração. Talvez então possamos descobrir o que o autor tinha em mente. Em geral, acho que já estabelecemos que a afirmação do autor está correta. Colocar restrições adicionais na forma de

ou no espaço do parâmetro considerado pode alterar isso.

q

$q$

— cardeal

16

Eu acho que você está certo. Vamos destilar seu argumento em sua essência:

minimiza a funçãodefinido como $\widehat \theta_N$ $Q$ $Q(\theta) = {1 \over N}\sum_{i=1}^N q(w_i,\theta).$
Seja o hessiano de , de onde $H$ $Q$ por definição e isso, por sua vez, por linearidade de diferenciação, é igual a $H(\theta) = \frac{\partial^2 Q}{\partial \theta_i \partial \theta_j}$ . $\frac{1}{N}\sum_{i=1}^N H(w_i, \theta_n)$
Assumindo reside no interior do domínio de , em seguida, deve ser positivo semi-definida. $\widehat \theta_N$ $Q$ $H(\widehat \theta_N)$

Essa é apenas uma afirmação sobre a função : como ela é definida é meramente uma distração, exceto na medida em que a diferenciabilidade assumida de de segunda ordem em relação ao seu segundo argumento ( ) assegura a diferenciabilidade de de segunda ordem . $Q$ $q$ $\theta$ $Q$

Encontrar estimadores-M pode ser complicado. Considere estes dados fornecidos pelo @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

O procedimento R para encontrar o estimador M com produziu a solução = . O valor da função objetivo (a média dos 's) nesse ponto é igual a 62,3542. Aqui está um gráfico do ajuste: $q((x,y),\theta)=(y-c_1x^{c_2})^4$ $(c_1, c_2)$ $(-114.91316, -32.54386)$ $q$

Fit 1

Aqui está um gráfico da função objetivo (log) em uma vizinhança desse ajuste:

Objetivo 1

Algo é suspeito aqui: os parâmetros do ajuste estão muito distantes dos parâmetros usados para simular os dados (próximo ) e não parecemos estar no mínimo: estamos em um vale extremamente raso, inclinado para valores maiores de ambos os parâmetros: $(0.3, 0.2)$

Objetivo 1, visualização 3D

O determinante negativo do Hessian neste momento confirma que este não é um mínimo local! No entanto, quando você olha para os rótulos do eixo z, é possível ver que essa função é plana com precisão de cinco dígitos em toda a região, porque é igual a uma constante 4.1329 (o logaritmo de 62.354). Isso provavelmente levou o minimizador da função R (com suas tolerâncias padrão) a concluir que estava próximo do mínimo.

De fato, a solução está longe deste ponto. Para ter certeza de encontrá-lo, empreguei o método " Eixo Principal " computacionalmente caro, mas altamente eficaz , no Mathematica , usando precisão de 50 dígitos (base 10) para evitar possíveis problemas numéricos. Ele encontra um mínimo próximo onde a função objetivo tem o valor 58.292655: cerca de 6% menor que o "mínimo" encontrado por R. Esse mínimo ocorre em uma seção extremamente plana , mas posso fazer com que pareça (apenas por pouco) um mínimo verdadeiro, com contornos elípticos, exagerando a $(c_1, c_2) = (0.02506, 7.55973)$ $c_2$ direção na trama:

Objetivo 2

Os contornos variam de 58,29266 no meio até 58,29284 nos cantos (!). Aqui está a visualização 3D (novamente do objetivo do log):

Objetivo 2, visualização 3D

Aqui, o hessiano é positivo-definido: seus valores próprios são 55062.02 e 0.430978. Portanto, este ponto é um mínimo local (e provavelmente um mínimo global). Aqui está o ajuste a que corresponde:

Fit 2

Eu acho que é melhor que o outro. Os valores dos parâmetros são certamente mais realistas e está claro que não conseguiremos fazer muito melhor com essa família de curvas.

Existem lições úteis que podemos extrair deste exemplo:

A otimização numérica pode ser difícil, especialmente com as funções de ajuste não linear e de perda não quadrática. Portanto:
Verifique os resultados da maneira mais possível, incluindo:
Faça um gráfico da função objetivo sempre que puder.
Quando os resultados numéricos parecerem violar os teoremas matemáticos, seja extremamente suspeito.
Quando os resultados estatísticos forem surpreendentes - como os surpreendentes valores de parâmetros retornados pelo código R -, seja extremamente suspeito.

— whuber
fonte

+1, boa análise. Penso que é por isso que Wooldridge incluiu a observação. Eu ainda acho que é possível pensar em algum exemplo em que o hessian será indefinido. Restringir artificialmente o espaço do parâmetro, por exemplo. Neste exemplo, o espaço do parâmetro é um plano inteiro, e é por isso que o mínimo local dará hessian semi-positivo. Acho que chegou a hora de escrever um bom e-mail para Wooldridge para que ele entenda a questão :)

— mpiktas 25/02

@mpiktas Sim, tenho certeza de que existem problemas em que um mínimo global interior possui um Hessian indefinido, mas todos os parâmetros são identificáveis. Mas simplesmente não é possível para o Hessiano em um mínimo global interior suficientemente suave ser indefinido. Esse tipo de coisa foi provado repetidamente, como na topologia de Milnor, de um ponto de vista diferenciável . Suspeito que Wooldridge possa ter sido enganado por "soluções" numéricas errantes. (Os erros de digitação na página citada sugerem que ela foi escrita às pressas.)

— whuber

mesmo no limite, o hessian será positivo? Vou dar uma olhada no livro, vejo que realmente não tenho amplo conhecimento nessa área. Os teoremas clássicos são muito simples, então presumi que não deveria haver algo muito complicado. Essa talvez seja uma das razões pelas quais tive tanta dificuldade em responder à pergunta.

— mpiktas

@mpiktas Na fronteira, o Hessian não será necessariamente definido . A ideia é a seguinte: se a matriz derivada jacobiana / hessiana / segunda for definida em um ponto crítico, em uma vizinhança a função atua como a forma quadrática determinada por essa matriz. Se a matriz possui valores próprios positivos e negativos, a função deve aumentar em algumas direções e diminuir em outras: não pode ser um extremo local. Foi isso que preocupou @Jyotirmoy sobre a citação, que parece contradizer essa propriedade básica.

— whuber

Agradecemos a você e ao @mpiktas pela ótima análise. Eu tenderia a concordar com você que Wooldridge está confundindo dificuldades numéricas com propriedades teóricas do estimador. Vamos ver se existem outras respostas.

— Jyotirmoy Bhattacharya

7

$\hat{\theta}_N$

\begin{aligned} min_{θ \in Θ} N^{- 1} \sum_{Eu = 1}^{N} q (W_{Eu}, θ) \end{aligned}

$\begin{align} \min_{\theta\in \Theta}N^{-1}\sum_{i=1}^Nq(w_i,\theta) \end{align}$

$\hat{\theta}_N$ $\Theta$ $\hat{H}$

$N^{-1}\sum_{i=1}^Nq(w_i,\theta)$ $\theta_0$

min_{θ \in Θ} E q (W, θ) .

$\min_{\theta\in\Theta}Eq(w,\theta).$

$N^{-1}\sum_{i=1}^Nq(w_i,\theta)$ $\Theta$

Mais adiante, em seu livro, Wooldridge dá exemplos de estimativas de Hessian que são garantidas como definidas numericamente positivas. Na prática, a definição não positiva de Hessian deve indicar que a solução está no ponto limite ou o algoritmo não conseguiu encontrar a solução. O que geralmente é mais uma indicação de que o modelo ajustado pode ser inadequado para um dado dado.

Aqui está o exemplo numérico. Gero um problema de mínimos quadrados não lineares:

y_{Eu} = c_{1} x_{Eu}^{c_{2}} + ε_{Eu}

$y_i=c_1x_i^{c_2}+\varepsilon_i$

$X$ $[1,2]$ $\varepsilon$ $\sigma^2$ set.seed(3) $x_i$ $y_i$

Escolhi a função objetiva quadrado da função objetiva de mínimos quadrados não linear usual:

q (w, θ) = (y - c_{1} x_{i}^{c_{2}})^{4}

$q(w,\theta)=(y-c_1x_i^{c_2})^4$

Here is the code in R for optimising function, its gradient and hessian.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

First test that gradient and hessian works as advertised.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

The hessian is zero, so it is positive semi-definite. Now for the values of $x$ and $y$ given in the link we get

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Gradient is zero, but the hessian is non positive.

Note: This is my third attempt to give an answer. I hope I finally managed to give precise mathematical statements, which eluded me in the previous versions.

— mpiktas
fonte

@mpiktas, That's some interesting notation there (I know it's not yours). A

w

$w$ on the left-hand side and

y

$y$ and

x

$x$ on the right-hand side. I'm guessing

w = (x, y)

$w = (x,y)$ or something like that. Also, I'm assuming the squaring should be happening to

y - m (x, θ)

$y - m(x,\theta)$ and not just to

m (x, θ)

$m(x,\theta)$ . No?

— cardinal

@mpiktas, não estou muito certo como interpretar sua primeira frase, devido à redacção. Eu posso ver duas maneiras, uma que eu chamaria correta e a outra não. A rigor, não concordo com a segunda frase do seu primeiro parágrafo. Como mostrei acima, é possível estar no mínimo local no interior do espaço de parâmetros sem que o Hessian seja definido positivamente.

— cardeal

@cardinal, yes you are right. Wooldridge uses

w

$w$ for consistency reasons,

y

$y$ and

x

$x$ is reserved for response and predictors throughout the book. In this example

w = (x, y)

$w=(x,y)$ .

— mpiktas

@ cardinal, eu corrigi minha redação. Agora deve ficar tudo bem. Obrigado por apontar o problema.

— Mvctas

@mptikas. Nem Wooldridge nem eu estamos afirmando que o hessiano precisa ser positivo em todos os lugares. Minha afirmação é que, para um máximo interior, o hessiano empírico deve ser positivo semidefinido, como condição necessária para que uma função suave alcance seu máximo. Wooldridge parece estar dizendo algo diferente.

— Jyotirmoy Bhattacharya

3

O hessian é indefinido em um ponto de sela. É possível que este seja o único ponto estacionário no interior do espaço de parâmetros.

Atualização: Deixe-me elaborar. Primeiro, vamos supor que o Hessian empírico exista em toda parte.

E se $\hat{\theta}_n$ é um mínimo local (ou mesmo global) de $\sum_i q(w_i, \cdot)$ e no interior do espaço de parâmetros (assumido como um conjunto aberto), então necessariamente o Hessian $(1/N) \sum_i H(w_i, \hat{\theta}_n)$ é semidefinido positivo. Se não então $\hat{\theta}_n$ não é um mínimo local. Isso decorre das condições de otimização de segunda ordem - localmente $\sum_i q(w_i, \cdot)$ não deve diminuir em nenhuma direção longe do $\hat{\theta}_n$ .

Uma fonte da confusão pode ser a definição "funcional" de um estimador-M. Embora, em princípio, um estimador M deva ser definido como $\arg\min_\theta \sum_i q(w_i, \theta)$ , também pode ser definido como uma solução para a equação

0 0 = \sum_{Eu} \dot{q} (W_{Eu}, θ),

$0 = \sum_i \dot{q}(w_i, \theta)\,,$ Onde

\dot{q}

$\dot{q}$ é o gradiente de

q (w, θ)

$q(w, \theta)$ em relação a

θ

$\theta$ . Isso às vezes é chamado de

Ψ

$\Psi$ -tipo. No último caso, uma solução dessa equação não precisa ser um mínimo local. Pode ser um ponto de sela e, nesse caso, o hessiano seria indefinido.

Na prática, mesmo um hessiano definido positivo, quase singular ou mal condicionado, sugeriria que o estimador é ruim e você precisa se preocupar mais do que estimar sua variação.

— vqv
fonte

você pode adaptar sua resposta para que ela corresponda à notação da pergunta? Para o que é

x^{2} - y^{2}

$x^2-y^2$ referindo-se? Onde isso é inserido nas equações dadas na pergunta?

— probabilityislogic

+1 Bons pontos na atualização, especialmente o último parágrafo. Quando o Hessian está disponível - como é implicitamente assumido ao longo desta discussão -, seria automaticamente usado seu caráter positivo como um dos critérios para testar qualquer ponto crítico e, portanto, esse problema simplesmente não poderia surgir. Isso me leva a acreditar que a citação de Wooldridge deve preocupar o Hessiano em um mínimo global putativo, não em um mero ponto crítico.

— whuber

1

Tem havido muita discussão nesse tópico sobre se o Hessian deve ser positivo (semi) definido no mínimo local. Então, farei uma declaração clara sobre isso.

Presumindo que a função objetivo e todas as funções restritivas sejam duas vezes continuamente diferenciáveis, então, em qualquer mínimo local, o hessiano do lagrangiano projetado no espaço nulo do jacobiano de restrições ativas deve ser semidefinido positivo. Ou seja, se $Z$ é uma base para o espaço nulo do jacobiano de restrições ativas, então $Z^T*(\text{Hessian of Lagrangian})*Z$ deve ser positivo semidefinido. Isso deve ser definido positivamente para um mínimo local estrito.

Portanto, o hessiano da função objetivo em um problema restrito com restrição (s) ativa (s) não precisa ser positivo semidefinido se houver restrições ativas.

Notas:

1) As restrições ativas consistem em todas as restrições de igualdade, mais as restrições de desigualdade que são satisfeitas com a igualdade.

2) Veja a definição do Lagrangiano em https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) Se todas as restrições são lineares, então o Hessiano da Lagrangiana = Hessiano da função objetivo, porque as segundas derivadas das funções lineares são zero. Mas você ainda precisa fazer o jazz de projeção se alguma dessas restrições estiver ativa. Observe que restrições de limite inferior ou superior são casos particulares de restrições de desigualdade linear. Se as únicas restrições ativas são restrições vinculadas, a projeção do Hessian no espaço nulo do Jacobiano de restrições ativas equivale a eliminar as linhas e colunas do Hessian correspondentes a esses componentes em seus limites.

4) Como os multiplicadores de Lagrange de restrições inativas são zero, se não houver restrições ativas, o Hessian do Lagrangiano = o Hessian da função objetivo e a matriz Identity são a base do espaço nulo do Jacobiano de restrições ativas, que resulta na simplificação do critério, sendo a condição familiar de que o hessiano da função objetivo seja semidefinido positivo em um mínimo local (positivo positivo se for um mínimo local estrito).

— Mark L. Stone
fonte

0

As respostas positivas acima são verdadeiras, mas deixam de fora a suposição crucial de identificação - se o seu modelo não for identificado (ou apenas definido), você poderá, como Wooldridge indicou corretamente, encontrar-se com um Hessian empírico não-PSD. Basta executar um modelo psicométrico / econométrico que não seja um brinquedo e ver por si mesmo.

— vlad
fonte

Como isso não parece matematicamente possível, você poderia oferecer um exemplo simples e claro para demonstrar como o hessiano de uma função objetiva continuamente diferenciada duas vezes poderia deixar de ser o PSD no mínimo global?

— whuber