Vamos tratar do caso mais simples para tentar fornecer o máximo de intuição. Seja uma amostra iid de uma distribuição discreta com k resultados. Seja π 1 , … , π k as probabilidades de cada resultado específico. Estamos interessados na distribuição (assintótica) da estatística qui-quadrado
X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xnkπ1, … , Πk
Aqui n π i é o número esperado de contagens do i th resultado.
X2= ∑i = 1k( SEu- n πEu)2n πEu.
n πEuEu
Uma heurística sugestiva
Defina , de modo queX2=ΣiL 2 i =‖L‖ 2 2 em queL=(U1,...,Lk).vocêEu= ( SEu- n πEu) / n πEu---√X2= ∑Euvocê2Eu= ∥ U ∥22U =( U1, … , Uk)
Como é B i n ( n , π i ) , então pelo Teorema do Limite Central ,
T i = U iSEuB i n (n, πEu)
portanto, também temos isso, U i d → N ( 0 , 1 - π i ) .
TEu= UEu1 - πEu-----√= SEu- n πEun πEu( 1 - πEu)---------√→dN( 0 , 1 ),
vocêEu→dN( 0 , 1 - πEu)
Agora, se o foram (assintoticamente) independente (que não são), então poderíamos argumentar que
Σ i T 2 i foi asymptotically χ 2 k distribuído. Mas, nota que T k é uma função determinística de ( T 1 , ... , T k - 1 ) e assim os T i variáveis não pode ser independente.TEu∑EuT2Euχ2kTk( T1, … , Tk - 1)TEu
Portanto, devemos levar em conta a covariância entre eles de alguma forma. Acontece que a maneira "correta" de fazer isso é usar o vez, e a covariância entre os componentes de U também altera a distribuição assintótica do que poderíamos ter pensado que era χ 2 k para o que é, de fato, a χ 2 k - 1 .vocêEuvocêχ2kχ2k - 1
Alguns detalhes sobre isso a seguir.
Um tratamento mais rigoroso
Não é difícil verificar se, de fato,
C o v ( UEu, Uj) = - πEuπj----√i ≠ j
você
A = I - π--√π--√T,
π--√= ( π1--√, … , Πk--√)UMAA = A2= ATZ =( Z1, … , Zk)A Z ∼ N( 0 , A )
você0 0UMA
vocêA ZX2= UTvocêZTUMATA Z = ZTA Z
UMAr a n k ( A )UMAA = Q D QTQDr a n k ( A )
ZTA Zχ2k - 1UMAk - 1
Outras conexões
A estatística do qui-quadrado também está intimamente relacionada à estatística da razão de verossimilhança. De fato, é uma estatística de pontuação Rao e pode ser vista como uma aproximação da série de Taylor da estatística da razão de verossimilhança.
Referências
Este é o meu próprio desenvolvimento baseado na experiência, mas obviamente influenciado por textos clássicos. Bons lugares para procurar aprender mais são
- GAF Seber e AJ Lee (2003), Linear Regression Analysis , 2ª ed., Wiley.
- E. Lehmann e J. Romano (2005), Testing Statistical Hypotheses , 3a ed., Springer. Seção 14.3 em particular.
- DR Cox e DV Hinkley (1979), Estatística Teórica , Chapman e Hall.