Por que o teste de independência usa a distribuição qui-quadrado?

O de adequação usa a seguinte estatística : No teste, concedendo que estão reunidas as condições, utiliza-se o - distribuição para calcular o valor de p que, dada a é verdadeiro se poderia observar um tal valor em uma amostra representativa do mesmo tamanho. $\chi^2$

χ_{0}^{2} = \sum_{i = 1}^{n} \frac{(O_{i} - E_{i})^{2}}{E_{i}}

$\chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i}$

χ^{2}

$\chi^2$

H_{0}

$H_0$

No entanto, para que uma estatística $\chi_0^2$ siga uma $\chi^2$ (com $n-1$ graus de liberdade), deve ser verdade que:

\sum_{i = 1}^{n} \frac{(O_{i} - E_{i})^{2}}{E_{i}} = \sum_{i = 1}^{n - 1} Z_{i}^{2}

$\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i}=\sum_{i=1}^{n-1}Z_i^2$ para

normal padrão e independente

Z_{i}

$Z_i$ ( Wikipedia ). As condições para o teste são as seguintes (novamente, da Wikipedia ):

Amostra representativa da população
Grande tamanho da amostra
A contagem esperada de células é suficientemente grande
Independência entre cada categoria

Das condições (1,2), é claro que satisfazemos as condições de inferência da amostra para a população. (3) parece ser uma suposição necessária porque a contagem discreta , que está no denominador, não resulta em uma distribuição quase contínua para cada e se não for grande o suficiente, há um erro que pode ser corrigido com Yates 'correção - isso parece ser o fato de que uma distribuição discreta é basicamente uma distribuição contínua "pavimentada", de modo que o deslocamento de para cada uma corrige isso. $E_i$ $Z_i$ $1/2$

A necessidade de (4) parece ser útil mais tarde, mas não consigo ver como.

No começo, pensei que é necessário para que a estatística corresponda à distribuição. Isso me levou à suposição questionável de que , que estava realmente errado. De fato, fica claro a partir da redução da dimensão para dois lados da igualdade de para que esse não pode ser o caso. $Z_i=\frac{O_i-E_i}{\sqrt{E_i}}$ $O_i-E_i\sim \mathcal{N}(0, \sqrt{E_i})$ $n$ $n-1$

Ficou evidente, graças às explicações do whuber, que não precisa ser igual a cada porque (observe a redução no número de variáveis somadas) para variáveis aleatórias normais padrão que são funcionalmente independentes. $Z_i$ $\frac{O_i-E_i}{\sqrt{E_i}}$ $\chi_0^2=\sum_{i=1}^{n-1}Z_i^2$ $Z_i$

Minha pergunta , então, é como segue a ? Que tipos de combinações de cada um dos termos resultam em normais padrão quadrados ? Isso requer o uso do CLT, aparentemente (e isso faz sentido), mas como? Em outras palavras , qual é cada igual (ou aproximadamente igual a)? $\chi_0^2$ $\chi^2$ $\frac{(O_i-E_i)^2}{E_i}$ $Z_i^2$ $Z_i$

hypothesis-testing chi-squared

— VF1
fonte

Estou curioso para saber onde você lê que alguém assume a última coisa que você declarou ( ). Isso não é necessário: a estatística pode ter uma (pelo menos para uma aproximação extremamente boa) sem que nenhum desses resíduos padronizados tenha uma distribuição normal. A pergunta que você deseja fazer é como essas suposições justificam a referência da estatística a uma ? Por si mesmos, eles não. Para uma discussão sobre o que pode dar errado, consulte minha postagem em stats.stackexchange.com/a/17148 .

O_{i} - E_{i} \sim N (0, \sqrt{E_{i}})

$O_i-E_i\sim \mathcal{N}(0, \sqrt{E_i})$

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$ $\chi^2$ $\chi^2$

— whuber

Pela igualdade de duas somas de quadrados, você não pode concluir que as raízes quadradas são iguais termo por termo! Como esse é o caso de meros números, certamente também é o caso de variáveis aleatórias.

— whuber

Para tornar isso concreto, suponha que sejam distribuídos independentemente com distribuições com graus de liberdade e que mas para todos . Então, embora nenhum dos seja normal, no entanto tem uma .

(W_{i}), i = 1, \dots, n

$(W_i),i=1, \ldots,n$

χ

$\chi$

ν_{1}, ν_{2}, \dots, ν_{n}

$\nu_1,\nu_2,\ldots,\nu_n$

ν_{1} + ν_{2} + \dots + ν_{n} = n - 1

$\nu_1+\nu_2+\cdots+\nu_n=n-1$

ν_{i} \neq 1

$\nu_i\ne 1$

i

$i$

W_{i}

$W_i$

\sum_{i = 1}^{n} W_{i}^{2}

$\sum_{i=1}^n W_i^2$

χ^{2} (n - 1)

$\chi^2(n-1)$

— whuber

Se por "quadrado padrão normal" você quer dizer "soma de quadrados normais independentes", essa é a pergunta que acredito que você realmente queria fazer desde o início :-). E, no final, a maioria das análises da situação de fato invoca o Teorema do Limite Central para provar que os resíduos padronizados assintoticamente são normais normais (mas não completamente independentes, e é por isso que os graus de liberdade são e não ).

n - 1

$n-1$

n

$n$

— whuber

O +1 pelo que antecipo em breve será uma pergunta muito boa. O primeiro problema é que o teste de independência não usa a estatística reivindicada. A estatística fornecida no início é unidimensional (uma soma de categorias), enquanto um teste de independência requer mais de uma variável. Edite para fazer com que o nome do teste e a estatística correspondam.

n

$n$

— Glen_b -Reinstala Monica

Respostas:

É sobre a distribuição de Poisson. Se é Poisson com média , a variação de é . Isso significa que é uma entidade do tipo . Pelo CLT, o Poisson tende à normalidade à medida que a média aumenta, e é aí que o qui-quadrado entra. Sim, é um teste assintótico. $X$ $\lambda$ $X$ $\lambda$

\frac{(X - λ)^{2}}{λ}

$\frac{(X-\lambda)^2}{\lambda}$

z^{2}

$z^2$

Os graus de liberdade vêm do teorema de Cochran. Basicamente, Cochran explica como o qui-quadrado é transformado (ou permanece inalterado) sujeito a uma transformação linear nas pontuações . $z^2$

\sum_{i} z_{i}^{2} = Z^{'} I Z

$\sum_i z_i^2=Z' I Z$

em notação matricial. Se em vez de calcular a soma usual de praças, você compute para alguma matriz Q, então você ainda obter uma quantidade com aa distribuição qui-quadrado, mas os graus de liberdade são agora o posto de . Existem mais condições na matriz Q, mas essa é a essência.

Z^{'} Q Z

$Z' Q Z$

Q

$Q$

Se você brinca com alguma notação da matriz, pode expressar como uma forma quadrática. Cochran assume independência das variáveis normais originais, e é por isso que as colunas da sua tabela de contagens também devem ser independentes.

\sum_{i} (z_{i} - \bar{z})^{2}

$\sum_i (z_i-\bar{z})^2$

— Placidia
fonte

Desculpe, mas você definitivamente me perdeu em "Se preferir, você faz ..."

— VF1 15/01

@ VF1, fiz uma alteração, então espero que seja mais claro. O teorema de Cochrane é a resposta para sua pergunta de quando uma soma de quadrados com normais possui uma distribuição qui-quadrado.

— Placidia 15/01

OK, vou dar uma olhada nisso. Vou deixar a pergunta em aberto, no entanto, caso alguém mais tenha algo a acrescentar.

— VF1 15/01

Normalmente, o tamanho da amostra é fixo. Isso significa que é impossível que qualquer uma das entradas possa seguir uma distribuição Poisson. O apelo a uma distribuição de Poisson, portanto, parece ser apenas mais uma aproximação - e parece nos deixar exatamente onde começamos.

— whuber

De acordo com o livro "Estatísticas Introdutórias com Aleatorização e Simulação", seção 3.3.2 (livro disponível gratuitamente no OpenIntro ), a estatística do teste do está tentando acumular os desvios observados em relação ao esperado. E os desvios são de fato expressos através do termo $\chi^2$

Z_{i} = \frac{O_{i} - E_{i}}{\sqrt{E_{i}}}

$Z_i = \frac{O_i - E_i}{\sqrt{E_i}}$

que realmente se origina de .

\frac{O_{i} - E_{i}}{(S t a n d a r d E r r o r O f T h e O b s e r v e d)}

$\frac{O_i - E_i}{(Standard Error Of The Observed)}$

$(StandardErrorOfTheObserved)$ $\sqrt{E_i}$ $Z_i = \frac{O_i - E_i}{\sqrt{E_i}}$

De qualquer forma, você pode criar uma estatística de teste no formulário

Z = | Z_{1} | + | Z_{2} | + | Z_{3} | + . . .

$Z = |Z_1| + |Z_2| + |Z_3| + ...$

χ^{2} = Z_{1}^{2} + Z_{2}^{2} + Z_{3}^{2} + . . .

$\chi^2 = Z_1^2 + Z_2^2 + Z_3^2 +...$

$\chi^2$ $\chi^2$

$\chi^2$

— CamilB
fonte