Observe que a expressão de variação na pergunta é uma aproximação. Hedges (1981) derivada da grande variação da amostra de e aproximação de uma configuração geral (isto é, múltiplas experiências / estudos), e minha resposta praticamente caminha através das derivações do papel.d
Primeiro, as suposições que utilizaremos são as seguintes:
Vamos supor que temos dois grupos de tratamento independentes, (tratamento) e C (controle). Seja Y T i e Y C j as pontuações / respostas / o que quer que seja do sujeito i no grupo T e do sujeito j no grupoTCYTEuYCjEuTj , respectivamente.C
Assumimos que as respostas são normalmente distribuídas e os grupos de tratamento e controle compartilham uma variação comum, ou seja,
YTEuYCj∼ N( μT,σ2),i=1,…nT∼N(μC,σ2),j=1,…nC
O tamanho do efeito que estamos interessados em estimar em cada estudo é . O estimador do tamanho do efeito que usaremos é
d= ˉ Y T- ˉ Y Cδ=μT−μCσ
ondeS2ké a variância da amostra imparcial para o grupo
d=Y¯T−Y¯C(nT−1)S2T+(nC−1)S2CnT+nC−2−−−−−−−−−−−−−√
S2k .
k
Vamos considerar as propriedades de amostra grande de d .
Em primeiro lugar, nota que:
e (solta com a minha notação):
( n T - 1 ) S 2 T
Y¯T−Y¯C∼N(μT−μC,σ2nT+nCnTnC)
(nT−1)S2Tσ2(nT+nC−2)=1nT+nC−2(nT−1)S2Tσ2∼1nT+nC−2χ2nT−1(1)
(nC−1)S2Cσ2(nT+nC−2)=1nT+nC−2(nC−1)S2Cσ2∼1nT+nC−2χ2nC−1(2)
Equations (1) and (2) lead to the fact that (again, being loose with my notation):
1σ2(nT−1)S2T+(nC−1)S2CnT+nC−2∼1nT+nC−2χ2nT+nC−2
Now, some clever algebra:
d=Y¯T−Y¯C(nT−1)S2T+(nC−1)S2CnT+nC−2−−−−−−−−−−−−−√=(σnT+nCnTnC−−−−−√)−1(Y¯T−Y¯C)(σnT+nCnTnC−−−−−√)−1(nT−1)S2T+(nC−1)S2CnT+nC−2−−−−−−−−−−−−−√=(Y¯T−Y¯C)−(μT−μC)σnT+nCnTnC√+μT−μCσnT+nCnTnC√(nT+nCnTnC−−−−−√)−1(nT−1)S2T+(nC−1)S2Cσ2(nT+nC−2)−−−−−−−−−−−−−√=nT+nCnTnC−−−−−−−√⎛⎝⎜θ+δnTnCnT+nC−−−−−√Vν−−√⎞⎠⎟
where
θ∼N(0,1),
V∼χ2ν, and
ν=nT+nC−2. Thus,
d is
nT+nCnTnC−−−−−√ times a variable which follows a non-central t-distribution with
nT+nC−2 degrees of freedom and non-centrality parameter of
δnTnCnT+nC−−−−−√.
Using the moment properties of the non-central t distribution, it follows that:
Var(d)=(nT+nC−2)(nT+nC−4)(nT+nC)nTnC(1+δ2nTnCnT+nC)−δ2b2(3)
where
b=Γ(nT+nC−22)nT+nC−22−−−−−−−√Γ(nT+nC−32)≈1−34(nT+nC−2)−1
So Equation (3) provides the exact large sample variance. Note that an unbiased estimator for δ is bd, with variance:
Var(bd)=b2(nT+nC−2)(nT+nC−4)(nT+nC)nTnC(1+δ2nTnCnT+nC)−δ2
For large degrees of freedom (i.e. large nT+nC−2), the variance of a non-central t variate with ν degrees of freedom and non-centrality parameter p can be approximated by 1+p22ν (Johnson, Kotz, Balakrishnan, 1995). Thus, we have:
Var(d)≈nT+nCnTnC⎛⎝⎜1+δ2(nTnCnT+nC)2(nT+nC−2)⎞⎠⎟=nT+nCnTnC+δ22(nT+nC−2)
Plug in our estimator for δ and we're done.