Como interpretar o valor p do teste Kolmogorov-Smirnov (python)?

Eu tenho dois exemplos que eu quero testar (usando python) se eles são desenhados da mesma distribuição. Para fazer isso, uso a função estatística ks_2samp de scipy.stats. Retorna 2 valores e encontro dificuldades em interpretá-los. Ajuda por favor!

python

— Meri
fonte

Respostas:

Como Stijn apontou, o teste ks retorna uma estatística D e um valor p correspondente à estatística D. A estatística D é a distância máxima absoluta (supremo) entre os CDFs das duas amostras. Quanto mais próximo esse número for de 0, maior a probabilidade de as duas amostras terem sido coletadas da mesma distribuição. Confira a página da Wikipedia para o teste ks. Ele fornece uma boa explicação: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

O valor p retornado pelo teste ks tem a mesma interpretação que outros valores p. Você rejeita a hipótese nula de que as duas amostras foram retiradas da mesma distribuição se o valor-p for menor que o seu nível de significância. Você pode encontrar tabelas on-line para a conversão da estatística D em um valor-p se estiver interessado no procedimento.

— CrossValidatedTrading
fonte

Obrigado pela sua resposta. Na verdade, eu sei o significado dos 2 valores D e P-valor, mas não consigo ver a relação entre eles. Como posso definir o nível de significância? Você pode me dar um link para a conversão da estatística D em um valor-p?

— meri

Claro, tabela para converter D stat em valor-p: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf

— CrossValidatedTrading

@CrossValidatedTrading: Seu link para a tabela D-stat-to-value agora é 404.

— james.garriss

@CrossValidatedTrading Deve haver uma relação entre os valores p e os valores D do teste KS de dois lados? Em alguns casos, vi uma relação proporcional, em que a estatística D aumenta com o valor-p. Isso parece que seria o contrário: que duas curvas com uma diferença maior (maior D-estatística), seria mais significativamente diferentes (de baixo valor-p) ...

— Thomas Matthew

se o valor de p for> 0,05, suas duas amostras deverão ser idênticas e equilibradas.

— user798719

Ao fazer uma pesquisa no Google por ks_2samp, o primeiro hit é neste site. Nele, você pode ver a especificação da função:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

— Stijn
fonte

Os parâmetros aeb são minha sequência de dados ou devo calcular os CDFs para usar o ks_2samp?

— 22313

@meri: há um exemplo na página que eu vinculei.

— Stijn