Várias descrições na seleção de modelos sobre efeitos aleatórios de Modelos Mistos Lineares instruem a usar REML. Conheço a diferença entre REML e ML em algum nível, mas não entendo por que REML deve ser usado porque ML é tendencioso. Por exemplo, é errado realizar um LRT em um parâmetro de variação de um modelo de distribuição normal usando ML (veja o código abaixo)? Não entendo por que é mais importante ser imparcial do que ser ML, na seleção de modelos. Acho que a resposta final deve ser "porque a seleção de modelos funciona melhor com REML do que com ML", mas eu gostaria de saber um pouco mais do que isso. Não li as derivações de LRT e AIC (não sou bom o suficiente para entendê-las completamente), mas se REML for usado explicitamente nas derivações, apenas sabendo que será realmente suficiente (por exemplo,
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value