Posso usar Kolmogorov-Smirnov para comparar duas distribuições empíricas?

Tudo bem usar o teste de ajuste de Kolmogorov-Smirnov para comparar duas distribuições empíricas para determinar se elas parecem ter vindo da mesma distribuição subjacente, em vez de comparar uma distribuição empírica com uma distribuição de referência pré-especificada?

Deixe-me tentar perguntar de outra maneira. Coleto N amostras de alguma distribuição em um local. Coleto M amostras em outro local. Os dados são contínuos (cada amostra é um número real entre 0 e 10, por exemplo), mas não é normalmente distribuído. Quero testar se essas amostras N + M são todas da mesma distribuição subjacente. É razoável usar o teste Kolmogorov-Smirnov para esse fim?

Em particular, eu poderia calcular a distribuição empírica $F_0$ das amostras e a distribuição empírica das amostrasEntão, eu poderia calcular a estatística do teste Kolmogorov-Smirnov para medir a distância entre e : ou seja, calculare use como minha estatística de teste, como no teste de Kolmogorov-Smirnov, para garantir o ajuste. Essa é uma abordagem razoável? $N$ $F_1$ $M$ $F_0$ $F_1$ $D = \sup_x |F_0(x) - F_1(x)|$ $D$

(Li em outro lugar que o teste de qualidade de ajuste de Kolmogorov-Smirnov não é válido para distribuições discretas , mas admito que não entendo o que isso significa ou por que pode ser verdade. Isso significa que minha abordagem proposta é ruim? )

Ou você recomenda outra coisa?

hypothesis-testing distributions kolmogorov-smirnov

— DW
fonte

Gostaria de saber se, com base nos comentários de @ Glen_b aqui ( stats.stackexchange.com/questions/362/… ), não se deve usar o teste KS para comparar distribuições empíricas porque o teste KS não deve ser usado quando os parâmetros são estimados (? )

— russellpierce

Tudo bem, e bastante razoável. É referido como o teste Kolmogorov-Smirnov de duas amostras . Medir a diferença entre duas funções de distribuição pela supnorm é sempre sensato, mas para fazer um teste formal, você deseja conhecer a distribuição sob a hipótese de que as duas amostras são independentes e cada uma delas da mesma distribuição subjacente. Para confiar na teoria assintótica usual, você precisará da continuidade da distribuição comum subjacente (não das distribuições empíricas). Veja a página da Wikipedia vinculada acima para mais detalhes.

Em R, você pode usar o ks.test, que calcula os valores exatos para tamanhos de amostra pequenos. $p$

— NRH
fonte

Em R você também pode fazer um bootstrapped KS teste sekhon.berkeley.edu/matching/ks.boot.html que se livrar da exigência de continuidade

— Dr G

mais informações se você usa Matlab

— Artem Kaznatcheev