A inclusão de termos aleatórios no modelo é uma maneira de induzir alguma estrutura de covariância entre as notas. O fator aleatório para a escola induz uma covariância diferente de zero entre diferentes alunos da mesma escola, enquanto é quando a escola é diferente.0 0
Vamos escrever seu modelo como
onde s indexa a escola e i indexa os alunos (em cada escola). Os termos escola s são variáveis aleatórias independentes desenhadas em um N ( 0 , τ ) . Os e s , i são variáveis aleatórias independentes desenhadas em um N ( 0 , 2
Ys , i= α + horass , iβ+ escolas+es , i
sEuescolasN( 0 , τ)es , iN( 0 , σ2) .
Esse vetor tem valor esperado
[ α + horass , iβ]s , i
que é determinado pelo número de horas trabalhadas.
A covariância entre e Y s ' , i ' é 0 quando s ≠ s 'Ys , iYs′, i′0 0s ≠ s′ , o que significa que a partida das notas dos valores esperados são independentes quando os alunos não estão na mesma escola.
A covariância entre e Y s , i ' é τYs , iYs , i′τ quando e a variação de Y s , i é τ + σ 2 : as séries de alunos da mesma escola terão saídas correlacionadas dos valores esperados .i ≠ i′Ys , iτ+ σ2
Exemplo e dados simulados
Aqui está uma breve simulação de R para cinquenta alunos de cinco escolas (aqui eu tiro ); os nomes da variável são auto-documentados: σ2= τ= 1
set.seed(1)
school <- rep(1:5, each=10)
school_effect <- rnorm(5)
school_effect_by_ind <- rep(school_effect, each=10)
individual_effect <- rnorm(50)
Traçamos as saídas da série esperada para cada aluno, ou seja, os termos , juntamente com (linha pontilhada) a saída média para cada escola:escolas+ es , i
plot(individual_effect + school_effect_by_ind, col=school, pch=19,
xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)
Agora vamos comentar sobre esse enredo. O nível de cada linha a tracejado (correspondente a ) é desenhada de forma aleatória em uma lei normal. Os termos aleatórios específicos do aluno também são sorteados aleatoriamente em uma lei normal, eles correspondem à distância dos pontos da linha pontilhada. O valor resultante é, para cada aluno, a partida de α + horas βescolasα + horas β , a nota determinada pelo tempo gasto no trabalho. Como resultado, os alunos da mesma escola são mais parecidos que os de escolas diferentes, como você afirmou na sua pergunta.
A matriz de variação para este exemplo
escolases , i
⎡⎣⎢⎢⎢⎢⎢⎢UMA0 00 00 00 00 0UMA0 00 00 00 00 0UMA0 00 00 00 00 0UMA0 00 00 00 00 0UMA⎤⎦⎥⎥⎥⎥⎥⎥
10 × 10UMAA = ⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.