Por que o teste de Kolmogorov-Smirnov funciona?

25

Ao ler sobre o teste KS de 2 amostras, entendo exatamente o que está fazendo, mas não entendo por que ele funciona .

Em outras palavras, eu posso seguir todas as etapas para calcular as funções de distribuição empírica, encontrar a diferença máxima entre os dois para encontrar a estatística D, calcular os valores críticos, converter a estatística D em um valor p etc.

Mas não tenho idéia de por que isso realmente me diz alguma coisa sobre as duas distribuições.

Alguém poderia ter me dito com tanta facilidade que preciso pular um burro e contar com que velocidade ele foge e, se a velocidade for menor que 2 km / h, rejeito a hipótese nula. Claro que posso fazer o que você me disse para fazer, mas o que isso tem a ver com a hipótese nula?

Por que o teste KS de 2 amostras funciona? O que calcular a diferença máxima entre os ECDFs tem a ver com a diferença entre as duas distribuições?

Qualquer ajuda é apreciada. Eu não sou estatístico, então assuma que eu sou um idiota, se possível.

— Darcy
fonte

4

Bem-vindo ao CV, Darcy! Ótima pergunta!

— Alexis

1

Salte por cima de um burro ... :)

— Richard Hardy

9

Basicamente, o teste é consistente como resultado direto do teorema de Glivenko Cantelli, um dos resultados mais importantes de processos empíricos e talvez estatísticos.

$n \rightarrow \infty$

Quão mais? Mmyyeeaa eu não sei. O poder do teste é meio dúbio. Eu nunca usaria isso na realidade.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf

— AdamO
fonte

2

+1 Olá AdamO! Uma sentença de uma a duas frases assume o poder de ser "meio dúbio?" Eu adoraria essa perspectiva (concluí que o teste é considerado facilmente "dominado").

— Alexis28:

1

F_{1}

$F_1$

F_{2}

$F_2$

p > 0.05

$p > 0.05$

p < 0.05

$p < 0.05$

F_{1} = F_{2}

$F_1 = F_2$

1

F_{1}

$F_{1}$

\neq F_{2}

$\ne F_{2}$

2

@ Alexis não, não tenho preocupações com a matemática do teste. Na verdade, acho que é bastante elegante e o resultado do teorema do limite é muito impressionante.

— AdamO 29/11

2

F_{1}

$F_1$

F_{2}

$F_2$

9

Temos duas amostras independentes e univariadas:

\begin{aligned} X_{1}, X_{2}, . . ., X_{N} & \overset{i i d}{\sim} F \\ Y_{1}, Y_{2}, . . ., Y_{M} & \overset{i i d}{\sim} G, \end{aligned}

$\begin{align} X_1,\,X_2,\,...,\,X_N&\overset{iid}{\sim}F\\ Y_1,\,Y_2,\,...,\,Y_M&\overset{iid}{\sim}G, \end{align}$

G

$G$

F

$F$

\begin{aligned} H_{0} & : F (x) = G (x) for all x \in R \\ H_{1} & : F (x) \neq G (x) for some x \in R . \end{aligned}

$\begin{align} H_0&:F(x) = G(x)\quad\text{for all } x\in\mathbb{R}\\ H_1&:F(x) \neq G(x)\quad\text{for some } x\in\mathbb{R}. \end{align}$

{X_{i}}_{i = 1}^{N}

$\{X_i\}_{i=1}^N$

{Y_{j}}_{j = 1}^{M}

$\{Y_j\}_{j=1}^M$

X_{i}

$X_i$

Y_{j}

$Y_j$

F

$F$

G

$G$

x

$x$

F

$F$

G

$G$

F (x) \neq G (x)

$F(x)\neq G(x)$

x \in R

$x\in\mathbb{R}$

— jcz
fonte

8

Uma visão intuitiva:

O teste de Kolmogorov-Smirnov baseia-se fundamentalmente na ordenação de observações por distribuição. A lógica é que, se as duas distribuições subjacentes forem as mesmas, então, dependendo do tamanho da amostra, a ordem deve ser bem embaralhada entre as duas.

$Y$ $X$ $D$

$D$ $X$ $Y$

— Alexis
fonte