Os testes que comparam distribuições são testes de exclusão. Eles começam com a hipótese nula de que as duas populações são idênticas e depois tentam rejeitar essa hipótese. Nunca podemos provar que o nulo é verdadeiro, apenas rejeitá-lo, portanto esses testes não podem realmente ser usados para mostrar que duas amostras são da mesma população (ou populações idênticas).
Isso ocorre porque pode haver pequenas diferenças nas distribuições (o que significa que elas não são idênticas), mas tão pequenas que os testes não conseguem realmente encontrar a diferença.
Considere 2 distribuições, a primeira é uniforme de 0 a 1, a segunda é uma mistura de 2 uniformes; portanto, é 1 entre 0 e 0,999 e também 1 entre 9,999 e 10 (0 em outros lugares). Claramente, essas distribuições são diferentes (se a diferença é significativa é outra questão), mas se você tirar um tamanho de amostra de 50 de cada (total de 100), haverá mais de 90% de chance de você ver apenas valores entre 0 e 0,999 e não conseguir ver nenhuma diferença real.
Existem maneiras de fazer o que é chamado teste de equivalência, onde você pergunta se as 2 distribuições / populações são equivalentes, mas você precisa definir o que considera ser equivalente. Geralmente, alguma medida de diferença está dentro de um determinado intervalo, ou seja, a diferença nas 2 médias é inferior a 5% da média das 2 médias, ou a estatística KS está abaixo de um determinado limite, etc. pode então calcular um intervalo de confiança para a estatística da diferença (a diferença de média pode ser apenas o intervalo de confiança t, bootstrapping, simulação ou outros métodos podem ser necessários para outras estatísticas). Se todo o intervalo de confiança cair na "região de equivalência", consideraremos as 2 populações / distribuições como "equivalentes".
A parte difícil é descobrir qual deve ser a região de equivalência.