Estou procurando uma boa terminologia para descrever o que estou tentando fazer, para facilitar a procura de recursos.
Então, digamos que eu tenho dois grupos de pontos A e B, cada um associado a dois valores, X e Y, e eu quero medir a "distância" entre A e B - ou seja, qual a probabilidade de eles terem sido amostrados da mesma distribuição (Eu posso assumir que as distribuições são normais). Por exemplo, se X e Y estão correlacionados em A, mas não em B, as distribuições são diferentes.
Intuitivamente, eu pegaria a matriz de covariância de A e depois veria qual a probabilidade de cada ponto em B se encaixar lá e vice-versa (provavelmente usando algo como a distância de Mahalanobis).
Mas isso é um pouco "ad-hoc", e provavelmente existe uma maneira mais rigorosa de descrever isso (é claro, na prática, tenho mais de dois conjuntos de dados com mais de duas variáveis - estou tentando identificar quais dos meus conjuntos de dados são discrepantes).
Obrigado!