A resposta curta é que sua conjectura é verdadeira quando e somente quando há uma correlação intra-classe positiva nos dados . Empiricamente falando, a maioria dos conjuntos de dados agrupados na maioria das vezes mostra uma correlação intra-classe positiva, o que significa que, na prática, sua conjectura é geralmente verdadeira. Mas se a correlação intra-classe for 0, os dois casos mencionados são igualmente informativos. E se a correlação intra-classe for negativa , será menos informativo fazer menos medições em mais assuntos; na verdade, preferimos (no que diz respeito à redução da variação da estimativa de parâmetros) fazer todas as nossas medições em um único assunto.
Estatisticamente, há duas perspectivas a partir do qual podemos pensar sobre isso: um de efeitos aleatórios (ou mista ) modelo , que você menciona na sua pergunta, ou um modelo marginal , o que acaba sendo um pouco mais informativo aqui.
Modelo de efeitos aleatórios (misto)
Digamos que temos um conjunto de assuntos dos quais fizemos m medições cada. Em seguida, um modelo de efeitos aleatórios simples do j th medição do i th sujeito pode ser
y i j = β + u i + e i j ,
onde β é a intercepção fixo, u i é o efeito sujeito aleatório (com variância σ 2 u ), e i j é o termo de erro no nível de observação (com variação σ 2 enmji
yij=β+ui+eij,
βuiσ2ueijσ2e) e os dois últimos termos aleatórios são independentes.
Nesse modelo, representa a média da população e, com um conjunto de dados equilibrado (ou seja, um número igual de medidas de cada sujeito), nossa melhor estimativa é simplesmente a média da amostra. Portanto, se tomarmos "mais informações" para significar uma variação menor para essa estimativa, basicamente queremos saber como a variação da média da amostra depende de n e m . Com um pouco de álgebra, podemos descobrir que
var ( 1βnm
Examinando essa expressão, podemos ver quesemprequehouver qualquer variação de assunto(ou seja,σ2u>0), aumentar o número de sujeitos (n) tornará esses dois termos menores, enquanto aumenta o número de medições por sujeito (m) apenas tornará o segundo termo menor. (Para uma implicação prática disso na criação de projetos de replicação para vários sites, consulteesta postagem do blog que escrevi há pouco tempo.)
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+ui+eij)=1n2m2var(∑i∑jui+∑i∑jeij)=1n2m2(m2∑ivar(ui)+∑i∑jvar(eij))=1n2m2(nm2σ2u+nmσ2e)=σ2un+σ2enm.
σ2u>0nm
Agora você queria saber o que acontece quando aumentamos ou diminuímos ou n , mantendo constante o número total de observações. Portanto, para isso, consideramos n m uma constante, de modo que toda a expressão de variação se pareça com
σ 2 umnnm
que é o menor possível quandoné o maior possível (até um máximo den=nm, nesse casom=1, o que significa que fazemos uma única medição de cada sujeito).
σ2un+constant,
nn=nmm=1
Minha resposta curta se refere à correlação intra-classe, então onde isso se encaixa? Neste modelo simples de efeitos aleatórios, a correlação intra-classe é
(esboço de uma derivaçãoaqui). Então, podemos escrever a equação de variância acima como
var(1
ρ=σ2uσ2u+σ2e
Isso realmente não adiciona nenhum insight ao que já vimos acima, mas nos faz pensar: uma vez que a correlação intra-classe é um coeficiente de correlação de boa-fé e coeficientes de correlação pode ser negativo, o que aconteceria (e o que isso significaria) se a correlação intra-classe fosse negativa?
var(1nm∑i∑jyij)=σ2un+σ2enm=(ρn+1−ρnm)(σ2u+σ2e)
No contexto do modelo de efeitos aleatórios, uma correlação intra-classe negativa realmente não faz sentido, porque implica que a variação de assunto é de alguma forma negativa (como podemos ver na equação ρ acima e como explicada aqui e aqui ) ... mas as variações não podem ser negativas! Mas isso não significa que o conceito de correlação intra-classe negativa não faça sentido; significa apenas que o modelo de efeitos aleatórios não tem como expressar esse conceito, que é uma falha do modelo, não do conceito. Para expressar esse conceito adequadamente, precisamos considerar o modelo marginal.σ2uρ
Modelo marginal
yij
yij=β+e∗ij,
uieije∗ij=ui+eijuieije∗ijCC=σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥,R=⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
In words, this means that under the marginal model we simply consider
ρ to be the expected correlation between two
e∗s from the same subject (we assume the correlation across subjects is 0). When
ρé positivo, duas observações extraídas do mesmo assunto tendem a ser mais semelhantes (mais próximas), em média, do que duas observações extraídas aleatoriamente do conjunto de dados, ignorando o agrupamento devido aos sujeitos. Quando
ρfor
negativo , duas observações extraídas do mesmo assunto tendem a ser
menos semelhantes (mais afastadas), em média, do que duas observações extraídas completamente ao acaso. (Mais informações sobre esta interpretação nas
perguntas / respostas aqui .)
Então agora, quando olhamos para a equação para a variância da média da amostra no modelo marginal, temos
var ( 1n m∑Eu∑jyeu j)= var ( 1n m∑Eu∑jβ+ e∗eu j)= 1n2m2var ( ∑Eu∑je∗eu j)= 1n2m2( n ( mσ2+ ( m2- m ) ρ σ2) ))= σ2( 1+(m-1)ρ )n m= ( ρn+ 1 - ρn m) σ2,
que é a mesma expressão de variação que derivamos acima para o modelo de efeitos aleatórios, apenas com
σ2e+ σ2você= σ2, o que é consistente com nossa observação acima
e∗eu j= uEu+ eeu j. The advantage of this (statistically equivalent) perspective is that here we can think about a negative intra-class correlation without needing to invoke any weird concepts like a negative subject variance. Negative intra-class correlations just fit naturally in this framework.
(BTW, just a quick aside to point out that the second-to-last line of the derivation above implies that we must have ρ≥−1/(m−1), or else the whole equation is negative, but variances can't be negative! So there is a lower bound on the intra-class correlation that depends on how many measurements we have per cluster. For m=2 (i.e., we measure each subject twice), the intra-class correlation can go all the way down to ρ = - 1; param = 3 só pode descer para ρ = - 1 / 2; e assim por diante. Fato engraçado!)
Então, finalmente, mais uma vez considerando o número total de observações n m para ser uma constante, vemos que a penúltima linha da derivação acima se parece com
( 1+(m-1)ρ ) ×constante positiva.
Então quando
ρ > 0, tendo
mo menor possível (para que tomemos menos medidas de mais sujeitos - no limite, 1 medida de cada sujeito) reduz a variação da estimativa o menor possível. Mas quando
ρ < 0, nós realmente queremos
mser o
maior possível (para que, no limite, tomemos todas as
n mmedições de um único sujeito), a fim de tornar a variação o menor possível. E quando
ρ = 0, a variação da estimativa é apenas uma constante; portanto, nossa alocação de
m e
n não importa.