Esta questão é motivada por esta . Procurei duas fontes e foi isso que encontrei.
A. van der Vaart, Estatísticas Assintóticas:
Raramente é possível calcular explicitamente a probabilidade de um perfil, mas sua avaliação numérica é geralmente viável. Então a probabilidade do perfil pode servir para reduzir a dimensão da função de probabilidade. As funções de probabilidade de perfil são frequentemente usadas da mesma maneira que as funções de probabilidade (comuns) de modelos paramétricos. Além de tomar os seus pontos de máxima como estimadores q , a segunda derivada em θ é usada como uma estimativa de menos o inverso da matriz de covariância assintótica de e. Pesquisas recentes parecem validar essa prática.
J. Wooldridge, Análise Econométrica de Seção Transversal e Dados de Painel (o mesmo em ambas as edições):
Como um dispositivo para o estudo de propriedades assintóticas, a função objetivo concentrada é de valor limitado, porque geralmente depende de todo W ; nesse caso, a função objetivo não pode ser escrita como a soma de somas independentes distribuídas de forma idêntica. Uma configuração em que a equação (12.89) é uma soma das funções iid ocorre quando concentramos efeitos específicos de determinados modelos de dados de painel não lineares. Além disso, a função objetivo concentrada pode ser útil para estabelecer a equivalência de abordagens de estimativa aparentemente diferentes.
Wooldridge discute o problema em um contexto mais amplo de estimadores M, por isso também se aplica aos estimadores de probabilidade máxima.
Portanto, temos duas respostas diferentes para a mesma pergunta. O diabo na minha opinião está nos detalhes. Para alguns modelos, podemos usar com segurança a probabilidade de perfil do hessian para alguns modelos não. Existem resultados gerais que dão condições quando podemos fazer isso (ou não)?