Medindo a “distância” entre duas distribuições multivariadas


28

Estou procurando uma boa terminologia para descrever o que estou tentando fazer, para facilitar a procura de recursos.

Então, digamos que eu tenho dois grupos de pontos A e B, cada um associado a dois valores, X e Y, e eu quero medir a "distância" entre A e B - ou seja, qual a probabilidade de eles terem sido amostrados da mesma distribuição (Eu posso assumir que as distribuições são normais). Por exemplo, se X e Y estão correlacionados em A, mas não em B, as distribuições são diferentes.

Intuitivamente, eu pegaria a matriz de covariância de A e depois veria qual a probabilidade de cada ponto em B se encaixar lá e vice-versa (provavelmente usando algo como a distância de Mahalanobis).

Mas isso é um pouco "ad-hoc", e provavelmente existe uma maneira mais rigorosa de descrever isso (é claro, na prática, tenho mais de dois conjuntos de dados com mais de duas variáveis ​​- estou tentando identificar quais dos meus conjuntos de dados são discrepantes).

Obrigado!


Não sei por que, mas um teste de Mantel apareceu diante dos meus olhos quando li seu post.
Roman Luštrik 6/11/10

Respostas:



16

Hmm, a distância Bhattacharyya parece ser o que estou procurando, embora a distância Hellinger também funcione.


você menciona Bhattacharyya e Helling, em seguida, aceita uma resposta falando sobre KL ... No final, qual foi sua escolha e por quê?
Simon C.

1
Acredito que tenha sido uma divergência de KL, mas ... isso foi em 2010 e minha memória está longe de ser perfeita.
Emile

ahah sim, eu acho que sim, mas obrigada mesmo assim!
Simon C.

9

Heurística

  • Forma de Minkowski
  • Variação média ponderada (WMV)

Estatísticas de teste não paramétricas

  • 2 (Praça do Chi)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergências da teoria da informação

  • Kullback-Liebler (KL)
  • Divergência de Jensen-Shannon (métrica)
  • Divergência de Jeffrey (numericamente estável e simétrica)

Medidas de distância do solo

  • Interseção do histograma
  • Forma quadrática (QF)
  • Distância de motores de terra (EMD)


0

Mais algumas medidas de "Diferença estatística"

  • Teste de permutação (de Fisher)
  • Teorema do limite central e teorema de Slutsky
  • Teste de Mann-Whitney-Wilcoxin
  • Teste de Anderson – Darling
  • Teste de Shapiro-Wilk
  • Teste de Hosmer – Lemeshow
  • Teste de Kuiper
  • discrepância Stein kernelizada
  • Semelhança Jaccard
  • Além disso, o cluster hierárquico lida com medidas de similaridade entre grupos. As medidas mais populares de similaridade de grupo talvez sejam a ligação única, a ligação completa e a ligação média.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.