Quais são as distâncias entre variáveis que formam uma matriz de covariância?

Eu tenho uma matriz de covariância e quero particionar variáveis em clusters usando cluster hierárquico (por exemplo, para classificar uma matriz de covariância). $n \times n$ $k$

Existe uma função de distância típica entre variáveis (ou seja, entre colunas / linhas da matriz de covariância quadrada)?

Ou, se houver mais, há uma boa referência sobre o assunto?

— Piotr Migdal
fonte

Por que você deseja usar o cluster hierárquico em variáveis? Geralmente, pensamos em uma matriz de dados

, com variáveis em colunas e observações em linhas. Se você deseja procurar agrupamentos latentes, pode tentar, por exemplo, agrupamento hierárquico em linhas / observações ou, por exemplo, análise fatorial em colunas / variáveis.

X

$X$

— gung - Restabelece Monica

@Piotr, Sim, a covariância (ou correlação ou cosseno) pode ser fácil e naturalmente convertida em distância euclidiana, porque é um produto escalar (= semelhança do tipo angular). Conhecer a covariância entre duas variáveis e suas variações implica automaticamente conhecer d entre as variáveis:

d^{2} = σ_{1}^{2} + σ_{2}^{2} - 2 c o v

$d^2= \sigma_1^2+\sigma_2^2-2cov$

— ttnphns

Observe que esta fórmula significa que uma covariância negativa é maior distância que uma covariância positiva (e esse é realmente o caso do ponto de vista geométrico). Se você não deseja que o sinal da covariância desempenhe um papel, abula o sinal negativo.

— ttnphns

@gung É uma matriz simétrica, portanto, filas ~ colunas. Para mim, é crucial dividi-lo em conjuntos de variáveis, para não 'rotacioná-las' com análise fatorial (na verdade, não estou trabalhando com uma matriz cov. Padrão, mas com uma matriz complexa (matriz de densidade na mecânica quântica)).

— Piotr Migdal

@ttnphns Obrigado. O que me incomoda é que eu quero separar variáveis não correlacionadas - a correlação negativa é para mim (quase) tão boa quanto a positiva.

— Piotr Migdal

Respostas:

A covariância (ou correlação ou cosseno) pode ser fácil e naturalmente convertida em distância euclidiana por meio da lei dos cossenos , porque é um produto escalar (= semelhança angular) no espaço euclidiano. Sabendo covariância entre duas variáveis i e j , bem como suas variações implica, automaticamente, sabendo d entre as variáveis: . (Que $d_{ij}^2 = \sigma_i^2 + \sigma_j^2 −2cov_{ij}$ $d_{ij}^2$ é diretamente proporcional à distância euclidiana quadrada usual : você obtém a última se usar a soma dos quadrados e a soma dos produtos cruzados no lugar das variações e da covariância. É claro que ambas as variáveis devem estar centradas inicialmente: falar em "covariâncias" é um alias para pensar em dados com meios removidos.)

Note que esta fórmula significa que uma covariância negativa é maior distância que uma covariância positiva (e esse é realmente o caso do ponto de vista geométrico, isto é, quando as variáveis são vistas como vetores no espaço sujeito ). Se você não deseja que o sinal da covariância desempenhe um papel, abula o sinal negativo. Ignorar o sinal negativo não é uma operação de "correção manual" e é garantido, quando necessário: se a matriz cov for definida positiva, a matriz abs (cov) também será definida positivamente; e, portanto, as distâncias obtidas pela fórmula acima irá ser verdadeiros euclideanos distâncias (distância Euclidiana é uma espécie particular de métrica de distância).

As distâncias euclidianas são universais em relação ao agrupamento hierárquico : qualquer método desse agrupamento é válido com euclidianos ou euclidianos ao quadrado d . Mas alguns métodos, por exemplo, ligação média ou ligação completa, podem ser usados com qualquer dissimilaridade ou semelhança (não apenas distâncias métricas). Portanto, você pode usar esses métodos diretamente com a matriz cov ou abs (cov) ou - apenas por exemplo - com a matriz de distância max (abs (cov)) - abs (cov) . Obviamente, os resultados do agrupamento dependem potencialmente da natureza exata da (des) similaridade usada.

— ttnphns
fonte

d_{i j}^{2}

$d^2_{ij}$

d_{i j}^{2}

$d^2_{ij}$

@ Olá, adeus, sim, eu implico duas variáveis (vetores) com médias iguais - na verdade, com médias removidas, em primeira instância.

— ttnphns

Por que não usar a matriz de correlação para fazer o clustering? Assumindo que suas variáveis aleatórias estão centralizadas, calculando a correlação entre variáveis, você está calculando a distância da similaridade do cosseno . Essa distância também é mencionada no seu link. Essa distância pode ser usada para armazenamento em cluster hierárquico. Quanto menor a similaridade 1 - | cosseno |, mais semelhantes são as suas variáveis.

— Jorge Banuelos
fonte

d (i, j) = 1 - A_{i j}^{2} / (A_{i i} A_{j j})

$d(i,j)=1-A_{ij}^2/(A_{ii}A_{jj})$

Ah, desculpe pelo mal-entendido. A melhor fonte que conheço é essa . Eles estudam a qualidade de várias métricas (que usam correlação) com cluster hierárquico. Para cluster hierárquico, normalmente tento muitas métricas e vejo qual funciona melhor para meus objetivos e dados específicos.

— Jorge Banuelos

o link parece não funcionar mais?

— Matifou 24/01

Quais são as distâncias entre variáveis ​​que formam uma matriz de covariância?

Quais são as distâncias entre variáveis que formam uma matriz de covariância?