O de adequação usa a seguinte estatística : No teste, concedendo que estão reunidas as condições, utiliza-se o - distribuição para calcular o valor de p que, dada a H_0 é verdadeiro se poderia observar um tal valor em uma amostra representativa do mesmo tamanho.
No entanto, para que uma estatística siga uma (com graus de liberdade), deve ser verdade que:
- Amostra representativa da população
- Grande tamanho da amostra
- A contagem esperada de células é suficientemente grande
- Independência entre cada categoria
Das condições (1,2), é claro que satisfazemos as condições de inferência da amostra para a população. (3) parece ser uma suposição necessária porque a contagem discreta , que está no denominador, não resulta em uma distribuição quase contínua para cada e se não for grande o suficiente, há um erro que pode ser corrigido com Yates 'correção - isso parece ser o fato de que uma distribuição discreta é basicamente uma distribuição contínua "pavimentada", de modo que o deslocamento de para cada uma corrige isso.Z i 1 / 2
A necessidade de (4) parece ser útil mais tarde, mas não consigo ver como.
No começo, pensei que é necessário para que a estatística corresponda à distribuição. Isso me levou à suposição questionável de que , que estava realmente errado. De fato, fica claro a partir da redução da dimensão para dois lados da igualdade de para que esse não pode ser o caso. Oi-Ei∼N(0,√nn-1
Ficou evidente, graças às explicações do whuber, que não precisa ser igual a cada porque (observe a redução no número de variáveis somadas) para variáveis aleatórias normais padrão que são funcionalmente independentes.O i - E i ×20=Σn-1i=1Z2iZi
Minha pergunta , então, é como segue a ? Que tipos de combinações de cada um dos termos resultam em normais padrão quadrados ? Isso requer o uso do CLT, aparentemente (e isso faz sentido), mas como? Em outras palavras , qual é cada igual (ou aproximadamente igual a)? χ 2 ( O i - E i ) 2 Z 2 i Zi