A questão diz tudo. Eu li que ambos não podem generalizar o KS para uma dimensão igual ou maior que dois , e que implementações famosas como as do Numerical Recipes estão simplesmente erradas. Poderia explicar por que é assim?
A questão diz tudo. Eu li que ambos não podem generalizar o KS para uma dimensão igual ou maior que dois , e que implementações famosas como as do Numerical Recipes estão simplesmente erradas. Poderia explicar por que é assim?
Respostas:
Acredito que seja legítimo citar a parte relevante do parágrafo em questão:
3. O teste KS não pode ser aplicado em duas ou mais dimensões. Os astrônomos geralmente têm conjuntos de dados com pontos distribuídos em um plano ou em dimensões mais altas, em vez de ao longo de uma linha. Vários trabalhos na literatura astronômica pretendem apresentar um teste KS bidimensional, e um é reproduzido no famoso volume Numerical Recipes. No entanto, nenhum teste baseado em EDF (incluindo KS, AD e testes relacionados) pode ser aplicado em duas dimensões ou mais, porque não há uma maneira única de ordenar os pontos para que as distâncias entre EDFs bem definidos possam ser calculadas. Pode-se construir uma estatística com base em algum procedimento de pedido e depois calcular as distâncias supremos entre dois conjuntos de dados (ou um conjunto de dados e uma curva). Mas os valores críticos da estatística resultante não são livres de distribuição.
Como afirmado, isso parece muito forte.
1) A função de distribuição bivariada, que é é um mapa de a . Ou seja, a função usa valores reais univariados entre 0 e 1. Esses valores - sendo probabilidades - certamente já estão "ordenados" - e esse (o valor da função) é o que precisamos fazer comparações para testes baseados em ECDF . Da mesma forma, o ecdf, está perfeitamente bem definido no caso bivariado.
Não creio que seja necessário tentar transformá-lo em alguma função de uma variável combinada univariada, conforme o texto sugere. Você simplesmente calcula e em todas as combinações necessárias e calcula a diferença.
2) No entanto, na questão de saber se é livre de distribuição, eles têm um ponto:
a) claramente essa estatística de teste não seria alterada por mudanças nas transformações das margens, ou seja, se construída como um teste de uniformes independentes bivariados, , então funciona igualmente bem como um teste de independente que . Nesse sentido, é livre de distribuição (poderíamos dizer 'sem margem').
b) no entanto, geralmente existe um ponto subjacente no sentido mais amplo de que uma versão ingênua da estatística KS (como acabei de descrever) não é mais geralmente livre de distribuição; não podemos simplesmente transformar arbitrariamente .
Em uma versão anterior da minha resposta, eu disse:
Não há dificuldade, não há problema
Isto é errado. De fato, existem problemas se houver uma mudança, não apenas nas margens dos uniformes independentes bivariados, como acabamos de mencionar. No entanto, essas dificuldades foram consideradas de várias maneiras em vários artigos que produzem versões bivariadas / multivariadas das estatísticas Kolmogorov-Smirnov que não sofrem com esse problema.
Posso voltar e adicionar algumas dessas referências e alguma discussão sobre como elas funcionam assim que o tempo permitir.