Impacto dos limites da lixeira baseada em dados em um teste de ajuste de qualidade qui-quadrado?

Deixando de lado a questão óbvia da baixa potência do qui-quadrado nesse tipo de circunstância, imagine fazer um teste de qui-quadrado para alguma densidade com parâmetros não especificados, agrupando os dados.

Para concretude, digamos uma distribuição exponencial com média desconhecida e um tamanho de amostra de digamos 100.

Para obter um número razoável de observações esperadas por compartimento, é necessário levar em consideração os dados (por exemplo, se optássemos por colocar 6 compartimentos abaixo da média e 4 acima, isso ainda usaria limites de compartimento baseados em dados) .

Mas esse uso de caixas com base na visualização dos dados provavelmente afetaria a distribuição da estatística de teste sob o valor nulo.

Tenho visto muita discussão sobre o fato de que - se os parâmetros são estimados pela máxima probabilidade a partir dos dados em bin - você perde 1 df por parâmetro estimado (um problema que remonta a Fisher vs Karl Pearson) - mas não me lembro lendo qualquer coisa sobre como encontrar os próprios limites da lixeira com base nos dados. (Se você os estimar a partir dos dados não armazenados, então com bin a distribuição da estatística de teste fica em algum lugar entre a e a .) $k$ $\chi^2_{k}$ $\chi^2_{k-p}$

Essa escolha de caixas com base em dados afeta substancialmente o nível ou o poder de significância? Existem algumas abordagens que importam mais do que outras? Se houver muito efeito, é algo que desaparece em grandes amostras?

Se tiver um impacto substancial, isso parece fazer uso de um teste do qui-quadrado quando os parâmetros são desconhecidos quase inúteis em muitos casos (apesar de ainda ser defendido em alguns textos), a menos que você tenha uma boa estimativa prévia do parâmetro.

A discussão das questões ou sugestões para referências (de preferência com uma menção de suas conclusões) seria útil.

Editar, praticamente à parte a questão principal:

Ocorre-me que existem soluções potenciais para o caso específico do exponencial * (e o uniforme passa a pensar nisso), mas ainda estou interessado na questão mais geral do impacto na escolha dos limites do escaninho.

* Por exemplo, para o exponencial, pode-se usar a menor observação (digamos que seja igual a ) para ter uma idéia muito aproximada de onde colocar os compartimentos (já que a menor observação é exponencial com média ) e então teste as diferenças restantes ( ) quanto à exponencialidade. É claro que isso pode resultar em uma estimativa muito pobre de e, portanto, em más escolhas de bin, embora suponha que alguém possa usar o argumento recursivamente para fazer as duas ou três observações mais baixas para escolher binários razoáveis e testar as diferenças de as observações restantes acima da maior dessas estatísticas de menor ordem para exponencialidade) $m$ $\mu/n$ $n-1$ $x_i - m$ $\mu$

chi-squared goodness-of-fit binning

— Glen_b -Reinstate Monica
fonte

Pergunta interessante. Não sei a resposta, mas a ideia de que alguns graus de liberdade devem ser perdidos faz sentido. Se você ainda não o viu, esta resposta do @whuber deve ser instigante: como entender os graus de liberdade . Parece-me que alguns estudos de simulação devem permitir que você chegue aqui, pelo menos em alguns casos específicos.

— gung - Restabelece Monica

Não tenho certeza do quanto isso é útil, mas há um problema semelhante no campo da estimativa robusta. Especificamente, um método de estimativa robusta (por exemplo, média aparada) geralmente requer uma entrada parametrizada (por exemplo, parâmetro que define quanto ajustar). Este parâmetro pode ser escolhido por um método orientado a dados (por exemplo, veja a gordura das caudas antes de escolher o parâmetro de corte). Porém, a pré-seleção do parâmetro de corte afeta a distribuição da média aparada, em comparação, digamos, com uma regra de parâmetro fixo. A maneira usual de lidar com essa literatura é através de um bootstrap.

— Colin T Bowers

@ColinTBowers - potencialmente um pouco útil, obrigado. Não pensou na possibilidade de inicialização.

— Glen_b -Reinstate Monica

Pode ser interessante dividir o problema em um caso mais simples. Imagine algo como apenas 5 observações da sua distribuição favorita e coloque um único divisor nos dados para formar apenas dois compartimentos.

— Zkurtz 13/10/2013

Respostas:

Os resultados básicos do teste de ajuste do qui-quadrado podem ser entendidos hierarquicamente .

Nível 0 . A estatística clássica do teste qui-quadrado de Pearson para testar uma amostra multinomial contra um vetor de probabilidade fixo é $p$ onde

X^{2} (p) = \sum_{i = 1}^{k} \frac{(X_{i}^{(n)} - n p_{i})^{2}}{n p_{i}} \overset{d}{\to} χ_{k - 1}^{2},

$X^2(p) = \sum_{i=1}^k \frac{(X^{(n)}_i - n p_i)^2}{n p_i} \stackrel{d}{\to} \chi_{k-1}^2 \>,$

X_{i}^{(n)}

$X_i^{(n)}$ indica o número de resultados na

ésima célula de uma amostra do tamanho

. Isso pode ser visto frutuosamente como a norma quadrática do vetor

onde

i

$i$

n

$n$

Y_{n} = (Y_{1}^{(n)}, \dots, Y_{k}^{(n)})

$\mathbf Y_n = (Y_1^{(n)},\ldots,Y_k^{(n)})$

que, pelo teorema do limite central multivariado, converge em distribuição como

Y_{i}^{(n)} = (X_{i}^{(n)} - n p_{i}) / \sqrt{n p_{i}}

$Y_i^{(n)} = (X_i^{(n)} - n p_i)/\sqrt{n p_i}$

Y_{n} \overset{d}{\to} N (0, I - \sqrt{p} {\sqrt{p}}^{T}) .

$\mathbf Y_n \stackrel{d}{\to} \mathcal N(0, \mathbf I - \sqrt{p}\sqrt{p}^T) \>.$

X^{2} = ‖ Y_{n} ‖^{2} \to χ_{k - 1}^{2}

$X^2 = \|\mathbf Y_n\|^2 \to \chi^2_{k-1}$

I - \sqrt{p} {\sqrt{p}}^{T}

$\mathbf I - \sqrt{p}\sqrt{p}^T$

k - 1

$k-1$

Nível 1 . No próximo nível da hierarquia, consideramos hipóteses compostas com amostras multinomiais. Como o exato de interesse é desconhecido sob a hipótese nula, temos que estimar. Se a hipótese nula for composta e composta por um subespaço linear da dimensão , as estimativas de probabilidade máxima (ou outros estimadores eficientes) do podem ser usadas como estimadores de "plug-in". Então, a estatística sob a hipótese nula. $p$ $m$ $p_i$

X_{1}^{2} = \sum_{Eu = 1}^{k} \frac{(X_{Eu}^{(n)} - n {\hat{p}}_{Eu})^{2}}{n {\hat{p}}_{Eu}} \overset{d}{\to} χ_{k - m - 1}^{2},

$X^2_1 = \sum_{i=1}^k \frac{(X^{(n)}_i - n \hat{p}_i)^2}{n \hat{p}_i} \stackrel{d}{\to} \chi_{k-m - 1}^2 \>,$

Nível 2 . Considere o caso do teste de bondade de ajuste de um modelo paramétrico em que as células são fixadas e conhecidas com antecedência: por exemplo, temos uma amostra de uma distribuição exponencial com rate e, a partir disso, produzimos uma amostra multinomial ao classificar células , o resultado acima ainda é válido, desde que utilizemos estimativas eficientes (por exemplo, MLEs) das próprias probabilidades do compartimento, usando apenas as frequências observadas . $\lambda$ $k$

Se o número de parâmetros para a distribuição for (por exemplo, no caso exponencial), então onde pode estar considerados os MLEs das probabilidades celulares das células conhecidas fixas, correspondentes à determinada distribuição de interesse. $m$ $m = 1$

X_{2}^{2} = \sum_{Eu = 1}^{k} \frac{(X_{Eu}^{(n)} - n {\hat{p}}_{Eu})^{2}}{n {\hat{p}}_{Eu}} \overset{d}{\to} χ_{k - m - 1}^{2},

$X^2_2 = \sum_{i=1}^k \frac{(X^{(n)}_i - n \hat{p}_i)^2}{n \hat{p}_i} \stackrel{d}{\to} \chi_{k-m - 1}^2 \>,$

{\hat{p}}_{i}

$\hat{p}_i$

Nível 3 . Mas espere! Se tivermos uma amostra , por que não devemos estimar eficiência primeiro e depois usar uma estatística qui-quadrado com nossas células conhecidas e fixas? Bem, podemos, mas em geral não temos mais uma distribuição qui-quadrado para a estatística qui-quadrado correspondente. De fato, Chernoff e Lehmann (1954) mostraram que o uso de MLEs para estimar os parâmetros e depois conectá-los novamente para obter estimativas das probabilidades das células resulta em uma distribuição não-qui-quadrado, em geral. Sob condições de regularidade adequadas, a distribuição é (estocástica) entre uma e , com a distribuição dependendo dos parâmetros. $Z_1,\ldots,Z_n \sim F_\lambda$ $\lambda$ $\chi_{k-m-1}^2$ $\chi_{k-1}^2$

De maneira inadequada, isso significa que a distribuição limitadora de é . $\mathbf Y_n$ $\mathcal N(0, \mathbf I - \sqrt{p_\lambda}\sqrt{p_\lambda}^T - \mathbf A(\lambda))$

Ainda nem falamos sobre limites aleatórios de células, e já estamos em uma situação difícil! Há duas maneiras de sair: uma é recuar para o nível 2 ou, no mínimo, não usar estimadores eficientes (como MLEs) dos parâmetros subjacentes . A segunda abordagem é tentar desfazer os efeitos de maneira a recuperar uma distribuição qui-quadrado. $\lambda$ $\mathbf A(\lambda)$

Existem várias maneiras de seguir a última rota. Eles basicamente equivalem à pela matriz "correta" . Em seguida, a forma quadrática que é o número de células. $\mathbf Y_n$ $\mathbf B(\hat{\lambda})$

Y_{n}^{T} B^{T} B Y_{n} \overset{d}{\to} χ_{k - 1}^{2},

$\mathbf Y_n^T \mathbf B^T \mathbf B \mathbf Y_n \stackrel{d}{\to} \chi_{k-1}^2 \>,$

k

$k$

Exemplos são a estatística Rao-Robson-Nikulin e a estatística Dzhaparidze-Nikulin .

Nível 4 . Células aleatórias. No caso de células aleatórias, sob certas condições de regularidade, acabamos na mesma situação que no nível 3 se tomarmos o caminho de modificar a estatística qui-quadrado de Pearson. As famílias em escala de localização, em particular, se comportam muito bem. Uma abordagem comum é fazer com que nossas células tenham probabilidade , nominalmente. Portanto, nossas células aleatórias são intervalos da forma que . Esse resultado foi estendido ainda mais ao caso em que o número de células aleatórias cresce com o tamanho da amostra. $k$ $1/k$ $\hat{I}_j = \hat \mu + \hat\sigma I_{0,j}$ $I_{0,j} = [F^{-1}((j-1)/k), F^{-1}(j/k))$

Referências

W. van der Vaart (1998), Estatística Assintótica , Cambridge University Press. Capítulo 17 : Testes de qui-quadrado .
H. Chernoff e EL Lehmann (1954), O uso de estimativas de probabilidade máxima em testes de qualidade do ajuste $\chi^2$ , Ann. Matemática. Statist. vol. 25, n. 3, 579-586.
FC Drost (1989), Testes generalizados de qualidade do ajuste do qui-quadrado para modelos em escala de localização quando o número de classes tende ao infinito , Ann. Stat , vol. 17, n. 3, 1285–1300.
MS Nikulin, MS (1973), teste do qui-quadrado para distribuição contínua com parâmetros de mudança e escala , Theory of Probability and its Application , vol. 19, n. 3, 559-568.
KO Dzaparidze e MS Nikulin (1973), Sobre uma modificação das estatísticas padrão de Pearson , Theory of Probability and its Application , vol. 19, n. 4, 851-853.
KC Rao e DS Robson (1974), Uma estatística do qui-quadrado para testes de qualidade de ajuste dentro da família exponencial , Comm. Statist. , vol 3., n. 12, 1139-1153.
N. Balakrishnan, V. Voinov e MS Nikulin (2013), testes qui-quadrado de qualidade de ajuste com aplicações , Academic Press.

— cardeal
fonte

Encontrei pelo menos respostas parciais à minha pergunta abaixo. (Eu ainda gostaria de dar esse bônus a alguém, para que outras informações sejam apreciadas.)

Moore (1971) disse que Roy (1956) e Watson (1957,58,59) mostraram que quando os limites celulares para uma estatística qui-quadrado são funções dos melhores valores normais normais estimados de parâmetros assintóticos, então, sob certas condições, a distribuição nula assintótica da estatística qui-quadrado ainda é a soma de a e a soma ponderada de variáveis (para células , parâmetros ) em que os pesos estão entre 0 e 1 (fazendo o cdf da distribuição entre o de a e a , como mencionado na minha pergunta para a distribuição ao usar a estimativa de ML), e os pesos daqueles últimos $\chi^2_{k-p-1}$ $p$ $\chi^2_1$ $k$ $p$ $\chi^2_{k-p}$ $\chi^2_{k}$ $p$ os termos não são afetados por essa estimativa.

Referências

Moore DS (1971), uma estatística do qui-quadrado com limites aleatórios de células , Ann. Matemática. Estado. 42, n. 1, 147-156.

Roy AR (1956), On estatísticas com intervalos variáveis $\chi^2$ , Relatório Técnico No. 1 , Departamento de Estatística, Stanford University.

Watson, GS (1957), O qualidade do ajuste para distribuições normais $\chi^2$ , Biometrika , 44 , 336-348.

Watson, GS (1958), On qualidade de ajuste para distribuições contínuas $\chi^2$ , J. Royal Statist. Soc. B , 20 , 44-61.

Watson, GS (1959), Alguns resultados recentes em qualidade do ajuste $\chi^2$ , Biometrics , 15 , 440-468

— Glen_b -Reinstate Monica
fonte