Estou lendo o artigo da teoria de Doug Bates no pacote lme4 de R para entender melhor os detalhes dos modelos mistos e me deparei com um resultado intrigante que eu gostaria de entender melhor sobre o uso da máxima verossimilhança restrita (REML) para estimar a variação .
Na seção 3.3, no critério REML, ele afirma que o uso de REML na estimativa de variância está intimamente relacionado ao uso de uma correção de graus de liberdade ao estimar a variação de desvios residuais em um modelo linear ajustado. Em particular, "embora não seja geralmente derivado dessa maneira", os graus de correção da liberdade podem ser obtidos estimando-se a variação por meio da otimização de um "critério REML" (Eq. (28)). O critério REML é essencialmente apenas a probabilidade, mas os parâmetros de ajuste linear foram eliminados pela marginalização (em vez de defini-los iguais à estimativa de ajuste, o que daria uma variação da amostra enviesada).
Fiz as contas e verifiquei o resultado reivindicado para um modelo linear simples com apenas efeitos fixos. O que eu estou lutando é com a interpretação. Existe alguma perspectiva da qual é natural derivar uma estimativa de variação, otimizando uma probabilidade em que os parâmetros de ajuste foram marginalizados? Parece um tipo bayesiano, como se eu estivesse pensando na probabilidade como posterior e marginalizando os parâmetros de ajuste como se fossem variáveis aleatórias.
Ou a justificativa é primariamente apenas matemática - funciona no caso linear, mas também é generalizável?