Por que o teste de Kolmogorov-Smirnov funciona?


25

Ao ler sobre o teste KS de 2 amostras, entendo exatamente o que está fazendo, mas não entendo por que ele funciona .

Em outras palavras, eu posso seguir todas as etapas para calcular as funções de distribuição empírica, encontrar a diferença máxima entre os dois para encontrar a estatística D, calcular os valores críticos, converter a estatística D em um valor p etc.

Mas não tenho idéia de por que isso realmente me diz alguma coisa sobre as duas distribuições.

Alguém poderia ter me dito com tanta facilidade que preciso pular um burro e contar com que velocidade ele foge e, se a velocidade for menor que 2 km / h, rejeito a hipótese nula. Claro que posso fazer o que você me disse para fazer, mas o que isso tem a ver com a hipótese nula?

Por que o teste KS de 2 amostras funciona? O que calcular a diferença máxima entre os ECDFs tem a ver com a diferença entre as duas distribuições?

Qualquer ajuda é apreciada. Eu não sou estatístico, então assuma que eu sou um idiota, se possível.


4
Bem-vindo ao CV, Darcy! Ótima pergunta!
Alexis

1
Salte por cima de um burro ... :)
Richard Hardy

Respostas:


9

Basicamente, o teste é consistente como resultado direto do teorema de Glivenko Cantelli, um dos resultados mais importantes de processos empíricos e talvez estatísticos.

n

Quão mais? Mmyyeeaa eu não sei. O poder do teste é meio dúbio. Eu nunca usaria isso na realidade.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf


2
+1 Olá AdamO! Uma sentença de uma a duas frases assume o poder de ser "meio dúbio?" Eu adoraria essa perspectiva (concluí que o teste é considerado facilmente "dominado").
Alexis28:

1
F1F2p>0.05p<0.05F1=F2

1
F1F2

2
@ Alexis não, não tenho preocupações com a matemática do teste. Na verdade, acho que é bastante elegante e o resultado do teorema do limite é muito impressionante.
AdamO 29/11

2
F1F2

9

Temos duas amostras independentes e univariadas:

X1,X2,...,XNiidFY1,Y2,...,YMiidG,
GF
H0:F(x)=G(x)for all xRH1:F(x)G(x)for some xR.
{Xi}i=1N{Yj}j=1MXiYjFGxFGF(x)G(x)xR


8

Uma visão intuitiva:

O teste de Kolmogorov-Smirnov baseia-se fundamentalmente na ordenação de observações por distribuição. A lógica é que, se as duas distribuições subjacentes forem as mesmas, então, dependendo do tamanho da amostra, a ordem deve ser bem embaralhada entre as duas.

YXD

DXY

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.