A representação matemática de um termo de efeito aleatório aninhado

Suponha que uma variável de nível dependente seja medida em um nível de unidade (nível 1) aninhado em unidades do tipo (nível ) e que unidades do tipo estejam aninhadas em níveis do tipo (nível ). $y$ $A$ $2$ $A$ $B$ $3$

Suponha que eu ajuste a seguinte fórmula:

y ~ "FIXED EFFECTS [my syntax]" + (1 + x | B/A)

onde $x$ é algum preditor no nível $1$ .

Meu entendimento é que a representação matemática dessa fórmula é a seguinte. Está correto?

No que se segue, $y_{b,a,i}$ representa a saída do $i$ th ponto de dados na unidade de $a$ de $A$ aninhado na unidade $b$ da $B$ . Este ponto de dados possui um preditor correspondente $x_{b,a,i}$ .

y_{b, a, i} = “fixed effects'' + u_{b} + u_{b, 1, a} + (β_{b} + β_{b, 1, a}) x

$y_{b,a,i} = \text{“fixed effects''} + u_b + u_{b,1,a} + (\beta_b + \beta_{b,1,a})x$

Onde

u_{b} \sim N (0, σ_{B})

$u_b \sim N(0, \sigma_B)$

u_{b, 1, a} \sim N (0, σ)

$u_{b,1,a} \sim N(0, \sigma)$

β_{b} \sim N (0, ρ_{B})

$\beta_b \sim N(0, \rho_B)$

β_{b, a} \sim N (0, ρ)

$\beta_{b,a} \sim N(0, \rho)$

Ou seja, é um termo de desvio padrão que varia no nível . Por outro lado, dado qualquer , uma unidade no nível , e , uma unidade contida no nível , o termo de desvio padrão para é . Ou seja, é constante para qualquer unidade de nível . $\sigma_B$ $3$ $b$ $3$ $a$ $2$ $a$ $\sigma$ $\sigma$ $2$

Isso está correto (baseei esse raciocínio inferindo de uma apresentação relacionada na página 136 de Modelos mistos lineares: um guia prático sobre o uso de software estatístico))? Se isso estiver correto, existe alguma maneira de fazer com que dependa de qual unidade do nível o ponto de dados pertence. $\sigma$ $A$

r lme4-nlme random-effects-model

— Muno
fonte

Acho que falta um efeito aleatório na sua fórmula. A resposta depende dos efeitos fixos + um termo de erro com 5 componentes. $y_{iab}$

ε_{i a b} + ε_{a | b} + ε_{b} + x β_{a ∣ b} + x β_{b}

$\varepsilon_{iab} + \varepsilon_{a|b} + \varepsilon_{b} + x\beta_{a\mid b} + x\beta_b$

Em ordem, da esquerda para a direita, esses componentes têm as seguintes interpretações:

O erro puro (pessoal para cada observação)
Variação devido a diferentes níveis de A dentro de um nível B comum
Variação devido a diferentes níveis de B
Como A afeta a inclinação da relação dado o nível B comum $x$
Como o nível B afeta a inclinação de $x$

Você não pode permitir que varie com o nível de A, porque o modelo não seria mais identificável (muitos parâmetros todos fazendo o mesmo trabalho). A menos que a variação dependa de pesos conhecidos (como contagens de grupos) - nesse caso, você ainda teria o mesmo número de parâmetros. Lembre-se de que não sabemos os valores dos níveis de A (ou B), mas os estimamos sob o pressuposto de uma variação fixa. Precisamos assumir algum tipo de regularidade aqui. $\sigma$

Edit: @Amoeba questiona isso e eu posso ter me enganado sobre a possibilidade de diferentes valores da variação das observações. Eu interpretei mal a pergunta do OP, na verdade. Eu estava pensando na variação dos efeitos ocultos , e não no erro puro das observações individuais. Como os níveis A e B são aleatórios, presumivelmente, as variações também devem ser consideradas efeitos aleatórios, o que significa que algum tipo de regularização deve ser aplicado na estimativa deles, como é o caso dos efeitos aleatórios dos próprios níveis A e B. $\alpha$

Fica pior. O valor do modelo de efeitos mistos é que ele permite formar intervalos de confiança para situações não testadas (níveis de A e B não incluídos no modelo); portanto, você definitivamente precisa colocar uma distribuição nas variações e ajustar seus intervalos de confiança de acordo. . Parece muito feio.

E, com certeza, você precisará de muitos dados para que isso funcione bem, pois estamos falando sobre estimar variações e meios.

Quanto ao teste de Welch, trata-se basicamente de um argumento aplicado ao que costumava ser chamado de problema de Behrens-Fisher - o problema de testar a diferença de duas médias quando as variações são desiguais. Se a memória servir, o problema é que você não possui uma estatística suficiente de dimensão fixa nessa.

Para mim, a questão é por que esse problema deve até admitir uma solução significativa. O que realmente significa comparar meios quando as variações são desiguais? Imagine dois modelos de carro. Os carros do modelo A geralmente têm um número limitado e previsível de reparos a cada ano. Os carros do modelo B às vezes são limões e às vezes excelentes. O que significa comparar os custos médios de propriedade neste caso? Mas é sobre isso que estamos falando quando as variações dos níveis podem mudar. Que sentido faz realmente comparar meios quando as variações podem variar? Isso sugere que você está comparando maçãs e laranjas.

Referência. Como você parece estar usando R para isso, convém ler os modelos de efeitos mistos do livro de Bates e Pinheiro no S-plus , pois eles escreveram o código para os pacotes nlme e lme4 de R. Esse livro aborda todos os detalhes que você pode precisar. Eles permitem correlações entre as observações com um nível comum.

— Placidia
fonte

Por que o modelo não pode ser identificado se a variação pode variar com a variável de agrupamento? Não é como um teste t de Welch (que é possível codificar no lme4 com alguns hacks, consulte stats.stackexchange.com/a/144480/28666 )?

— Ameba

@amoeba Obrigado. Você está certo. Eu interpretei mal a questão e achei que ela se referia a uma variação diferente para cada nível da distribuição .

α

$\alpha$

— Placidia