Medindo a “distância” entre duas distribuições multivariadas

28

Estou procurando uma boa terminologia para descrever o que estou tentando fazer, para facilitar a procura de recursos.

Então, digamos que eu tenho dois grupos de pontos A e B, cada um associado a dois valores, X e Y, e eu quero medir a "distância" entre A e B - ou seja, qual a probabilidade de eles terem sido amostrados da mesma distribuição (Eu posso assumir que as distribuições são normais). Por exemplo, se X e Y estão correlacionados em A, mas não em B, as distribuições são diferentes.

Intuitivamente, eu pegaria a matriz de covariância de A e depois veria qual a probabilidade de cada ponto em B se encaixar lá e vice-versa (provavelmente usando algo como a distância de Mahalanobis).

Mas isso é um pouco "ad-hoc", e provavelmente existe uma maneira mais rigorosa de descrever isso (é claro, na prática, tenho mais de dois conjuntos de dados com mais de duas variáveis - estou tentando identificar quais dos meus conjuntos de dados são discrepantes).

Obrigado!

multivariate-analysis terminology distance-functions

— Emile
fonte

Não sei por que, mas um teste de Mantel apareceu diante dos meus olhos quando li seu post.

— Roman Luštrik 6/11/10

15

Há também a divergência Kullback-Leibler , que está relacionada à Distância Hellinger que você mencionou acima.

— Restabelecer Monica - G. Simpson
fonte

2

pode-se calcular a divergência de pontos de Kullback-Leibler sem assumir a densidade de probabilidade subjacente da qual os pontos vieram?

— 11136 Andre Holzner

16

Hmm, a distância Bhattacharyya parece ser o que estou procurando, embora a distância Hellinger também funcione.

— Emile
fonte

você menciona Bhattacharyya e Helling, em seguida, aceita uma resposta falando sobre KL ... No final, qual foi sua escolha e por quê?

— Simon C.

1

Acredito que tenha sido uma divergência de KL, mas ... isso foi em 2010 e minha memória está longe de ser perfeita.

— Emile

ahah sim, eu acho que sim, mas obrigada mesmo assim!

— Simon C.

9

Heurística

Forma de Minkowski
Variação média ponderada (WMV)

Estatísticas de teste não paramétricas

2 (Praça do Chi)
Kolmogorov-Smirnov (KS)
Cramer / von Mises (CvM)

Divergências da teoria da informação

Kullback-Liebler (KL)
Divergência de Jensen-Shannon (métrica)
Divergência de Jeffrey (numericamente estável e simétrica)

Medidas de distância do solo

Interseção do histograma
Forma quadrática (QF)
Distância de motores de terra (EMD)

— skyde
fonte

7

A pesquisa mais completa é fornecida em Inferência Estatística Baseada em Medidas de Divergência, por Leandro Pardo, Universidade Complutense, Chapman Hall 2006.

— Mark Salmon
fonte

0

Mais algumas medidas de "Diferença estatística"

Teste de permutação (de Fisher)
Teorema do limite central e teorema de Slutsky
Teste de Mann-Whitney-Wilcoxin
Teste de Anderson – Darling
Teste de Shapiro-Wilk
Teste de Hosmer – Lemeshow
Teste de Kuiper
discrepância Stein kernelizada
Semelhança Jaccard
Além disso, o cluster hierárquico lida com medidas de similaridade entre grupos. As medidas mais populares de similaridade de grupo talvez sejam a ligação única, a ligação completa e a ligação média.

— Danylo Zherebetskyy
fonte