Vou motivar isso intuitivamente e indicar como isso ocorre no caso especial de dois grupos, supondo que você esteja feliz em aceitar a aproximação normal do binômio.
Espero que isso seja suficiente para você ter uma boa noção de por que funciona da maneira que funciona.
Você está falando sobre o teste qui-quadrado da qualidade do ajuste. Digamos que haja grupos (você o tem como , mas há uma razão pela qual prefiro chamá-lo de ).n kknk
No modelo que está sendo aplicado para essa situação, as contagens , são multinomiais .Oii=1,2,...,k
Seja . As contagens estão condicionadas à soma (exceto em algumas situações bastante raras); e há um conjunto pré-especificado de probabilidades para cada categoria, , que somam . N p i , i = 1 , 2 , … , kN=∑ki=1OiNpi,i=1,2,…,k1
Assim como no binômio, há uma aproximação normal assintótica para multinômios - de fato, se você considerar apenas a contagem em uma determinada célula ("nesta categoria" ou não), ela seria binomial. Assim como no binômio, as variações das contagens (assim como suas covariâncias no multinomial) são funções de e ; você não estima uma variação separadamente.pNp
Ou seja, se as contagens esperadas forem suficientemente grandes, o vetor de contagens é aproximadamente normal com a média . No entanto, como as contagens são condicionadas a , a distribuição é degenerada (existe em um hiperplano de dimensão , pois especificar das contagens corrige a remanescente). A matriz de variância-covariância possui entradas diagonais e elementos diagonais desativados , e possui classificação devido à degeneração. N k - 1 k - 1 N p i ( 1 - p i ) - N p i p j k - 1Ei=NpiNk−1k−1Npi(1−pi)−Npipjk - 1
Como resultado, para uma célula individual , e você pode escrever . No entanto, os termos são dependentes (correlacionados negativamente), portanto, se você somar os quadrados desses , não terá a (como teria se fossem variáveis padronizadas independentes). Em vez disso, poderíamos potencialmente construir um conjunto de variáveis independentes partir do original, que são independentes e ainda aproximadamente normais (assintoticamente normais). Se somarmos seus quadrados (padronizados), obteríamos a . Existem maneiras de construir esse conjunto dez i = O i - E iVar ( OEu) = NpEu( 1 - pEu) ziχ2kk-1kχ2k-1k-1zEu= OEu- EEuEEu( 1 - pEu)√zEuχ2kk - 1kχ2k - 1k - 1 variáveis explicitamente, mas, felizmente, existe um atalho muito elegante que evita uma quantidade substancial de esforço e produz o mesmo resultado (o mesmo valor da estatística) como se tivéssemos enfrentado o problema.
Considere, por simplicidade, uma qualidade de ajuste com duas categorias (que agora é binomial). A probabilidade de estar na primeira célula é , e na segunda célula é . Existem observações na primeira célula e na segunda célula.p 2 = 1 - p X = O 1 N - X = O 2p1 1= pp2= 1 - pX= O1 1N- X= O2
A primeira contagem de células observada, é assintoticamente . Podemos padronizá-lo como . Então é aproximadamente (assintoticamente ).N ( N p , N p ( 1 - p ) ) z = X - N pXN ( Np , Np ( 1 - p ) ) z2=(X-Np)2z= X- NpNp ( 1 - p )√ ∼χ 2 1 ∼χ 2 1z2= ( X- Np )2Np ( 1 - p )∼ χ21 1∼ χ21 1
Notar que
∑2i = 1( OEu- EEu)2EEu= [ X- Np ]2Np+ [ ( N- X) - ( N- Np ) ]2N( 1 - p )= [ X- Np ]2Np+ [ X- Np ]2N( 1 - p )= ( X- Np )2[ 1Np+ 1N( 1 - p )] .
Mas
1 1Np+ 1N( 1 - p )= Np + N( 1 - p )Np . N( 1 - p )= 1Np ( 1 - p ) .
Então que é começamos com - que assintoticamente será uma variável aleatória . A dependência entre as duas células é tal que, ao mergulharmos por vez de , compensamos exatamente a dependência entre as duas e obtemos a variável aleatória quadrada-de-uma-aproximadamente-normal original. z2χ 2 1 EiEi(1-pi)∑2i = 1( OEu- EEu)2EEu= ( X- Np )2Np ( 1 - p )z2χ21 1EEuEEu( 1 - pEu)
O mesmo tipo de dependência-soma é pela mesma abordagem quando há mais de duas categorias - somando o vez de em todos os termos, você compensa exatamente o efeito da dependência e obtém uma soma equivalente a uma soma dos normais independentes . (Oi-Ei)2( OEu- EEu)2EEu kk-1( OEu- EEu)2EEu( 1 - pEu)kk - 1
Existem várias maneiras de mostrar que a estatística tem uma distribuição que assintoticamente para maior (é abordada em alguns cursos de estatística de graduação e pode ser encontrada em vários textos de nível de graduação), mas não quero levar você muito além do nível sugerido pela sua pergunta. De fato, é fácil encontrar derivações em notas na internet, por exemplo, existem duas derivações diferentes no espaço de duas páginas aqui kχ2k - 1k