Por que os valores de p e as estatísticas do teste ks diminuem com o aumento do tamanho da amostra? Tome este código Python como um exemplo:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Os resultados são:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Intuitivamente, entendo que à medida que n cresce, o teste é "mais seguro" e as duas distribuições são diferentes. Mas se o tamanho da amostra é muito grande, qual é o objetivo em testes de similaridade como esse e digamos o teste de Anderson Darling, ou o teste t, porque nesses casos em que n é muito grande, as distribuições sempre serão consideradas "significativamente diferente!? Agora estou me perguntando o que diabos são os valores de p. Depende muito do tamanho da amostra ... se p> 0,05 e você deseja que seja menor, basta obter mais dados; e se p <0,05 e você desejar que seja maior, remova alguns dados.
Além disso, se as duas distribuições fossem idênticas, a estatística do teste ks seria 0 e o valor p 1. Mas no meu exemplo, à medida que n aumenta, a estatística do teste ks sugere que as distribuições se tornam cada vez mais semelhantes com o tempo (diminui) , mas de acordo com o valor-p, eles se tornam mais e diferentes com o tempo (também diminui).