Perguntas para iniciantes:
Quero testar se dois conjuntos de dados distintos são da mesma distribuição. Um teste de Kolmogorov-Smirnov foi sugerido para mim.
Conover ( Practical Nonparametric Statistics , 3d) parece dizer que o Teste de Kolmogorov-Smirnov pode ser usado para esse fim, mas seu comportamento é "conservador" com distribuições discretas, e não tenho certeza do que isso significa aqui.
O comentário de DavidR em outra pergunta diz "... Você ainda pode fazer um teste de nível α com base na estatística KS, mas precisará encontrar outro método para obter o valor crítico, por exemplo, por simulação."
A versão do ks.test () no pacote dgof R ( article , cran ) adiciona alguns recursos não presentes na versão padrão do ks.test () no pacote de estatísticas. Entre outras coisas, o dgof :: ks.test inclui este parâmetro:
simulate.p.value: uma lógica que indica se os valores de p devem ser calculados pela simulação de Monte Carlo, apenas para testes discretos de qualidade de ajuste.
O objetivo de simulate.p.value = T é realizar o que o DavidR sugere?
Mesmo se for, não tenho certeza se posso realmente usar o dgof :: ks.test para um teste de duas amostras. Parece que ele fornece apenas um teste de duas amostras para uma distribuição contínua:
Se y for numérico, é realizado um teste de duas amostras da hipótese nula de que x e y foram retirados da mesma distribuição contínua.
Como alternativa, y pode ser uma cadeia de caracteres que nomeia uma função de distribuição contínua (cumulativa) (ou uma função), ou uma função ecdf (ou objeto da classe stepfun) que fornece uma distribuição discreta. Nesses casos, um teste de uma amostra é realizado a partir do nulo de que a função de distribuição que gerou x é a distribuição y ....
(Detalhes do plano de fundo: Estritamente falando, minhas distribuições subjacentes são contínuas, mas os dados tendem a estar muito próximos de alguns pontos. Cada ponto é o resultado de uma simulação e é uma média de 10 ou 20 números reais entre -1 e 1. No final da simulação, esses números estão quase sempre muito próximos de 0,9 ou -9. Assim, os meios se agrupam em torno de alguns valores, e eu os estou tratando como discretos. A simulação é complexa e não tenho razão para pensar que os dados seguem uma distribuição bem conhecida.)
Conselhos?