Durante muito tempo, me perguntei sobre a crença aparentemente comum de que há alguma diferença fundamental em efeitos fixos e aleatórios para modelos de efeitos mistos (geralmente não-lineares). Essa crença é, por exemplo, afirmada por Bates na seguinte resposta
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html
Bates afirma claramente que ele acredita que há uma diferença fundamental entre efeitos fixos e aleatórios, para que não possam ser combinados. Acho que ele está errado e espero convencer alguns leitores de um ponto de vista alternativo. Eu adoto uma abordagem freqüentista, então o que eu quero fazer é definir uma noção de probabilidade de perfil para uma função dos efeitos fixos e aleatórios. Para motivar a discussão, suponha que tenhamos um modelo de dois parâmetros com os parâmetros x e u (nada sobre efeitos aleatórios até agora). Seja
a função de probabilidade em que suprimimos qualquer referência aos dados. Seja qualquer função (agradável) de x e u. A probabilidade do perfil
para a função é dada porg ( x , u ) P g ( t ) gL(x,u)g(x,u)Pg(t)g
Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)
Eu acredito que ninguém iria discutir com isso. Agora, suponha que tenhamos uma distribuição de probabilidade anterior para u. Então, eu afirmaria que a probabilidade de perfil para ainda faz sentido, mas devemos modificar (1) incluindo o anterior.p(u)g
Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Observe que, como é um parâmetro com a priori, é exatamente o mesmo que se chama efeito aleatório. Então, por que muitas pessoas pensam que os parâmetros de efeito aleatório são de alguma forma diferentes. Acho que a diferença vem da prática usual de estimativa de parâmetros para eles. O que torna os efeitos aleatórios `` diferentes '' é que existem muitos deles em muitos modelos. Como resultado, para obter estimativas úteis para os efeitos fixos (ou outros parâmetros), é necessário tratar os efeitos aleatórios de uma maneira diferente. O que fazemos é integrá-los fora do modelo. No modelo acima, formaríamos a probabilidade onde
Agora, a
uF(x)F(x)=∫L(x,u)p(u)du
use foram. Portanto, se tudo o que temos é , parece não fazer sentido falar sobre a probabilidade do perfil para alguma função .
F(x)g(x,u)
Portanto, para obter informações sobre a função , não devemos integrar o parâmetro . Mas o que acontece no caso em que existem muitos parâmetros de efeito aleatório. Em seguida, afirmo que devemos integrar a `` maioria '', mas não todos, em um sentido que tornarei preciso. Para motivar a construção, haja efeitos aleatórios
. Considere o caso especial em que a função depende apenas de e, de fato, é a função mais simples que se pode imaginar, . Integre-se nos efeitos aleatórios para obter
g(x,u)unu=(u1,u2,...,un−1,un)g(x,u)ung(x,u)=unu1,u2,...,un−1
F(x,un)=∫L(x,u1,...,un)p(u1,...,un))du1du2...dun−1\eqno(4)
como antes podemos formar a probabilidade do perfil
Como generalizar para que faça sentido para uma função arbitrária . Observe bem que a definição de em
é a mesma que
Para ver esta nota, para o caso simples ,
é o mesmo que
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)
Para uma função geral , formamos a função
definida por e calculamos a probabilidade do perfil
g(x,u)F(x,s)(5)
Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)
Essa probabilidade de perfil é um conceito bem definido e permanece por si só. No entanto, para ser útil na prática, é preciso poder calcular seu valor, pelo menos aproximadamente. Acredito que para muitos modelos a função pode ser aproximada suficientemente bem usando uma variante da aproximação de Laplace. Defina por
Seja H o hessiano do log da função com relação aos parâmetros e .F(x,s)x^(s),u^(s)
x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
−L(x,u)p(u)xu
Os conjuntos de níveis de são subvariedades dimensionais de um espaço dimensional , onde existem efeitos fixos e efeitos aleatórios. Precisamos integrar um formulário
sobre esse coletor, onde tudo é linearizado em
Isso envolve um pouco de geometria diferencial elementar. Suponha que
Ao reparameterizarmos, podemos assumir que e . Então considere o mapa
gm+n−1n+mmnndu1∧du2∧…∧dunx^(s),u^(s)gxn(x^(s),u^(s))≠0x^(s)=0u^(s)=0
(x1,x2,…,xm−1,u1,u2,…,un)→(x1,x2,…,xm−1,−∑m−1i=1gxixi−∑ni=1guiuigxm,u1,u2,…,un)
onde é usado para denotar a derivada parcial de em relação a
avaliada no ponto máximo. Este é um mapa linear do espaço dimensional para o espaço tangente do conjunto de níveis de . Podemos usá-lo para calcular a integral desejada. Primeiro, a retração das 1 formas são simplesmente elas mesmas.
gxigxim+n−1gdui
O recuo do hessiano é a forma quadrática
Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n
Portanto, a integral pode ser calculada (ou aproximada) através da aproximação de Laplace, que é a fórmula usual que envolve o logaritmo do determinante de , que é calculado pela decomposição de Cholesky. O valor da aproximação de Laplace da integral é
queé o determinante. ainda precisamos lidar com a largura do conjunto de níveis de como
Para a primeira ordem, isso tem o valor
onde é o vetor de derivadas parciais de
T
L(x^(s),u^(s))|−T|12
|⋅|gϵ→0ϵ/∥∇g(x^(s),u^(s))∥∇g(x^(s),u^(s)))g (gx1,gx2,…,gxm,gu1,gu2,…,gun)
para que o valor da probabilidade no nível definido de seja fornecido por
Essa é a aproximação correta a ser usada para calcular a probabilidade do perfil.
gL(x^(s),u^(s))|−T|12∥∇g(x^(s),u^(s))∥