Regras para aplicar a simulação de Monte Carlo dos valores de p para o teste do qui-quadrado

Gostaria de entender o uso da simulação de Monte Carlo na chisq.test()função em R.

Eu tenho uma variável qualitativa que tem 128 níveis / classes. O tamanho da minha amostra é 26 (não pude provar mais "indivíduos"). Então, obviamente, terei alguns níveis com 0 "indivíduos". Mas o fato é que eu tenho apenas um número muito pequeno de classes representadas das 127 possíveis. Como ouvi dizer que, para aplicar o teste do qui-quadrado, deveríamos ter pelo menos 5 indivíduos em cada nível (não entendo completamente o motivo), pensei em usar a simulate.p.valueopção de usar a simulação de Monte Carlo para estimar a distribuição e calcule um valor-p. Sem a simulação de Monte Carlo, R me dá um valor-p < 1e-16. Com a simulação de Monte Carlo, isso me dá um valor-p em 4e-5.

Tentei calcular o valor-p com um vetor de 26 uns e 101 zeros, e com a simulação de Monte-Carlo, recebo um valor-p em 1.

É correto afirmar que, mesmo que o tamanho da minha amostra seja pequeno comparado ao número de classes possíveis, a distribuição observada é tal que é muito improvável que todas as classes possíveis existam com a mesma probabilidade (1/127) na população real ?

r chi-squared monte-carlo

— jtextori
fonte

Se seus dados são realmente o fato de você ter observado 26 classes distintas em uma amostra de 26, não há essencialmente nenhuma evidência contra a hipótese de que todas as 127 classes têm probabilidade igual. Isso pode ser avaliado com um cálculo de distribuição multinomial.

— whuber

" Como ouvi dizer que, para aplicar o teste do qui-quadrado, deveríamos ter pelo menos cinco indivíduos em cada nível (não entendo completamente a razão disso) " - não exatamente. O conselho original era que a contagem esperada , e não a contagem real, deveria ser pelo menos 5. O objetivo com essa regra (agora ultrapassada há muito tempo) era tentar garantir que a distribuição qui-quadrado fosse uma aproximação razoável à distribuição discreta do Estatística de teste. O conselho de vários jornais nas últimas quatro décadas é mais ou menos "essa regra é um pouco rígida demais".

— Glen_b -Reinstala Monica

Ao pesquisar, parece que o objetivo da Simulação de Monte Carlo é produzir uma distribuição de referência, com base em amostras geradas aleatoriamente que terão o mesmo tamanho da amostra testada, para calcular valores de p quando as condições de teste não forem satisfeitas.

Isso é explicado na Hope A. J. Royal Stat Society Série B (1968), que pode ser encontrada no JSTOR .

Aqui está uma citação relevante do documento Hope:

Os procedimentos de teste de significância de Monte-Carlo consistem na comparação dos dados observados com amostras aleatórias geradas de acordo com a hipótese que está sendo testada. ... É preferível usar um teste conhecido de boa eficiência em vez de um procedimento de teste de Monte-Carlo, assumindo que a hipótese estatística alternativa possa ser completamente especificada. No entanto, nem sempre é possível usar esse teste porque as condições necessárias para a aplicação do teste podem não ser satisfeitas ou a distribuição subjacente pode ser desconhecida ou pode ser difícil decidir sobre um critério de teste apropriado.

— jtextori
fonte