Os resultados básicos do teste de ajuste do qui-quadrado podem ser entendidos hierarquicamente .
Nível 0 . A estatística clássica do teste qui-quadrado de Pearson para testar uma amostra multinomial contra um vetor de probabilidade fixo é
X 2 ( p ) = k ∑ i = 1 ( X ( n ) i - n p i ) 2p
onde X ( n ) i
X2(p)=∑i=1k(X(n)i−npi)2npi→dχ2k−1,
X(n)i indica o número de resultados na
ésima célula de uma amostra do tamanho
n . Isso pode ser visto frutuosamente como a norma quadrática do vetor
Y n = ( Y ( n ) 1 , … , Y ( n ) k ) onde
Y ( n ) i = ( X ( n ) i - n p i ) / √inYn=(Y(n)1,…,Y(n)k) que, pelo teorema do limite central multivariado, converge em distribuição como
Y n d → N(0,I- √Y(n)i=(X(n)i−npi)/npi−−−√Yn→dN(0,I−p–√p–√T).
X2=∥Yn∥2→χ2k−1k-1I−p–√p–√Tk−1
Nível 1 . No próximo nível da hierarquia, consideramos hipóteses compostas com amostras multinomiais. Como o exato de interesse é desconhecido sob a hipótese nula, temos que estimar. Se a hipótese nula for composta e composta por um subespaço linear da dimensão , as estimativas de probabilidade máxima (ou outros estimadores eficientes) do podem ser usadas como estimadores de "plug-in". Então, a estatística
sob a hipótese nula.m p i X 2 1 = k ∑ i = 1 ( X ( npmpi
X21= ∑i = 1k( X( N )Eu- n p^Eu)2n p^Eu→dχ2k - m - 1,
Nível 2 . Considere o caso do teste de bondade de ajuste de um modelo paramétrico em que as células são fixadas e conhecidas com antecedência: por exemplo, temos uma amostra de uma distribuição exponencial com rate e, a partir disso, produzimos uma amostra multinomial ao classificar células , o resultado acima ainda é válido, desde que utilizemos estimativas eficientes (por exemplo, MLEs) das próprias probabilidades do compartimento, usando apenas as frequências observadas .λk
Se o número de parâmetros para a distribuição for (por exemplo, no caso exponencial), então
onde pode estar considerados os MLEs das probabilidades celulares das células conhecidas fixas, correspondentes à determinada distribuição de interesse.m = 1 X 2 2 = k ∑ i = 1 ( X ( n )mm = 1
X22= ∑i = 1k( X( N )Eu- n p^Eu)2n p^Eu→dχ2k - m - 1,
p^Eu
Nível 3 . Mas espere! Se tivermos uma amostra , por que não devemos estimar eficiência primeiro e depois usar uma estatística qui-quadrado com nossas células conhecidas e fixas? Bem, podemos, mas em geral não temos mais uma distribuição qui-quadrado para a estatística qui-quadrado correspondente. De fato, Chernoff e Lehmann (1954) mostraram que o uso de MLEs para estimar os parâmetros e depois conectá-los novamente para obter estimativas das probabilidades das células resulta em uma distribuição não-qui-quadrado, em geral. Sob condições de regularidade adequadas, a distribuição é (estocástica) entre uma e , com a distribuição dependendo dos parâmetros.Z1, … , Zn∼ Fλλχ2k - m - 1χ2k - 1
De maneira inadequada, isso significa que a distribuição limitadora de é .YnN( 0 , I - pλ--√pλ--√T- A ( λ ) )
Ainda nem falamos sobre limites aleatórios de células, e já estamos em uma situação difícil! Há duas maneiras de sair: uma é recuar para o nível 2 ou, no mínimo, não usar estimadores eficientes (como MLEs) dos parâmetros subjacentes . A segunda abordagem é tentar desfazer os efeitos de maneira a recuperar uma distribuição qui-quadrado.λA (λ)
Existem várias maneiras de seguir a última rota. Eles basicamente equivalem à pela matriz "correta" . Em seguida, a forma quadrática
que é o número de células.YnB ( λ^)
YTnBTB Yn→dχ2k - 1,
k
Exemplos são a estatística Rao-Robson-Nikulin e a estatística Dzhaparidze-Nikulin .
Nível 4 . Células aleatórias. No caso de células aleatórias, sob certas condições de regularidade, acabamos na mesma situação que no nível 3 se tomarmos o caminho de modificar a estatística qui-quadrado de Pearson. As famílias em escala de localização, em particular, se comportam muito bem. Uma abordagem comum é fazer com que nossas células tenham probabilidade , nominalmente. Portanto, nossas células aleatórias são intervalos da forma que . Esse resultado foi estendido ainda mais ao caso em que o número de células aleatórias cresce com o tamanho da amostra.1 / k I J = μ + σ eu 0 , j I 0 , j = [ M - 1 ( ( j - 1 ) / k ) , F - 1 ( j / kk1 / kEu^j= μ^+ σ^Eu0 , jEu0 , j= [ F- 1( ( j - 1 ) / k ) , F- 1( j / k ) )
Referências
W. van der Vaart (1998), Estatística Assintótica , Cambridge University Press. Capítulo 17 : Testes de qui-quadrado .
H. Chernoff e EL Lehmann (1954), O uso de estimativas de probabilidade máxima em testes de qualidade do ajusteχ2 , Ann. Matemática. Statist. vol. 25, n. 3, 579-586.
FC Drost (1989), Testes generalizados de qualidade do ajuste do qui-quadrado para modelos em escala de localização quando o número de classes tende ao infinito , Ann. Stat , vol. 17, n. 3, 1285–1300.
MS Nikulin, MS (1973), teste do qui-quadrado para distribuição contínua com parâmetros de mudança e escala , Theory of Probability and its Application , vol. 19, n. 3, 559-568.
KO Dzaparidze e MS Nikulin (1973), Sobre uma modificação das estatísticas padrão de Pearson , Theory of Probability and its Application , vol. 19, n. 4, 851-853.
KC Rao e DS Robson (1974), Uma estatística do qui-quadrado para testes de qualidade de ajuste dentro da família exponencial , Comm. Statist. , vol 3., n. 12, 1139-1153.
N. Balakrishnan, V. Voinov e MS Nikulin (2013), testes qui-quadrado de qualidade de ajuste com aplicações , Academic Press.