Maneira eficiente de calcular distâncias entre centróides a partir da matriz de distância

Vamos ter uma matriz simétrica quadrada de distâncias euclidianas quadradas entre pontos e o vetor alongado indicando a associação de grupos ou grupos ( clusters) dos pontos; um cluster pode consistir em point. $\bf D$ $n$ $n$ $k$ $\ge1$

Qual é a maneira mais eficiente ou realmente eficiente (em termos de velocidade) de calcular distâncias entre os centróides do cluster aqui?

Até agora, eu sempre fazia a análise da coordenada principal nessa situação. PCoA ou MDS de Torgerson equivale a converter primeiro $\bf D$ na matriz de produtos escalares $\bf S$ ("centralização dupla") e depois executar o PCA. Dessa forma, criamos coordenadas para os $n$ pontos no espaço euclidiano que eles ocupam. Depois disso, é fácil calcular as distâncias entre os centróides da maneira usual - como você faria com os grouped points x variablesdados. PCoA precisa decompor-se ou SVD do n x nsemidefinido positivo simétrico $\bf S$ , mas $n$ pode ser bem grande. Além disso, a tarefa não é uma redução de dimensionalidade e, na verdade, não precisamos desses eixos principais ortogonais. Então, sinto que essas decomposições podem ser um exagero.

Então, você tem conhecimento ou idéias sobre uma maneira potencialmente mais rápida?

— ttnphns
fonte

Permita que os pontos sejam indexados , todos eles em . Seja os índices de um cluster e os índices de outro cluster. Os centróides são $x_1, x_2, \ldots, x_n$ $\mathbb{R}^d$ $\mathcal{I}$ $\mathcal{J}$

c_{I} = \frac{1}{| I |} \sum_{i \in I} x_{i}, c_{J} = \frac{1}{| J |} \sum_{j \in J} x_{j}

$c_\mathcal{I} = \frac{1}{|\mathcal{I}|} \sum_{i\in\mathcal{I}} x_i,\ c_\mathcal{J} = \frac{1}{|\mathcal{J}|} \sum_{j\in\mathcal{J}} x_j$

e é desejado encontrar a distância ao quadrado em termos das distâncias ao quadrado . $||c_\mathcal{I} - c_\mathcal{J}||^2$ $D_{ij} = ||x_i - x_j||^2$

Exatamente como decomporíamos somas de quadrados nos cálculos da ANOVA, uma identidade algébrica é

| | c_{I} - c_{J} | |^{2} = \frac{1}{| I | | J |} (S S (I \cup J) - (| I | + | J |) (\frac{1}{| I |} S S (I) + \frac{1}{| J |} S S (J)))

$||c_\mathcal{I} - c_\mathcal{J}||^2 = \frac{1}{|\mathcal{I}||\mathcal{J}|} \left(SS(\mathcal{I \cup J}) -\left(|\mathcal{I}|+|\mathcal{J}|\right) \left(\frac{1}{|\mathcal{I}|}SS(\mathcal{I}) + \frac{1}{|\mathcal{J}|}SS(\mathcal{J})\right)\right)$

onde " " refere-se à soma dos quadrados das distâncias entre cada ponto de um conjunto e seu centróide. A identidade da polarização reexpressa isso em termos de distâncias ao quadrado entre todos os pontos: $SS$

S S (K) = \frac{1}{2} \sum_{i, j \in K} | | x_{i} - x_{j} | |^{2} = \sum_{i < j \in K} D_{i j} .

$SS(\mathcal{K}) = \frac{1}{2}\sum_{i,j\,\in\,\mathcal{K}} ||x_i - x_j||^2 = \sum_{i\lt j\,\in\,\mathcal{K}} D_{ij}.$

O esforço computacional, portanto, é , com uma constante implícita muito pequena. Quando os clusters são aproximadamente do mesmo tamanho e existem , é , diretamente proporcional ao número de entradas em : seria o melhor que se poderia esperar. $O((|\mathcal{I}|+|\mathcal{J}|)^2)$ $k$ $O(n^2/k^2)$ $D$

R código para ilustrar e testar esses cálculos a seguir.

ss <- function(x) {
  n <- dim(x)[2]
  i <- rep(1:n, n)
  j <- as.vector(t(matrix(i,n)))
  d <- matrix(c(1,1) %*% (x[,i] - x[,j])^2 , n) # The distance matrix entries for `x`
  sum(d[lower.tri(d)])
}
centroid <- function(x) rowMeans(x)
distance2 <- function(x,y) sum((x-y)^2)
#
# Generate two clusters randomly.
#
n.x <- 3; n.y <- 2
x <- matrix(rnorm(2*n.x), 2)
y <- matrix(rnorm(2*n.y), 2)
#
# Compare two formulae.
#
cat("Squared distance between centroids =",
    distance2(centroid(x), centroid(y)),
    "Equivalent value =", 
    (ss(cbind(x,y)) - (n.x + n.y) * (ss(x)/n.x + ss(y)/n.y)) / (n.x*n.y),
    "\n")

— whuber
fonte

Perfeito! Devo confessar que, apesar de conhecer as identidades do paralelogramo, não conseguia ver claramente o link para minha tarefa e deduzir a fórmula. Muito obrigado a você. Eu já programei a função (no SPSS) com base em sua fórmula para qualquer número de centróides e é realmente mais rápido com matriz grande D do que a maneira indireta via PCoA.

— Ttnphns

Eu também acrescentaria que a fórmula permanece válida se os grupos / clusters se cruzarem pelas composições dos objetos.

— Ttnphns

Sim, isso está correto: a identidade que eu uso não assume que os clusters sejam disjuntos.

— whuber

Apenas adicionando um link tardio: seu método em notação matricial, no qual baseei essa função que eu disse acima. stats.stackexchange.com/a/237811/3277

— ttnphns

@amoeba refere-se a qualquer subconjunto de

K

$\mathcal K$

{1, 2, \dots, n} .

$\{1,2,\ldots, n\}.$

— whuber