Clustering com medidas de distância assimétricas

9

Como você agrupa um recurso com uma medida de distância assimétrica?

Por exemplo, digamos que você esteja agrupando um conjunto de dados com dias da semana como um recurso - a distância de segunda a sexta-feira não é a mesma que a distância de sexta a segunda-feira.

Como você incorpora isso na medida de distância do algoritmo de agrupamento?

clustering distance

— Michael
fonte

3

Se a distância MF for assimétrica porque o futuro é diferente do passado, é necessário um cluster assimétrico genuíno. Primeiro, uma função de distância assimétrica deve ser definida.

Uma maneira de agrupar assimétricas, dada uma função de distância, é incorporar os dados originais em um novo espaço de coordenadas. Veja "Estruturas geométricas de alguns modelos não distantes para MDS assimétrico", de Naohito Chino e Kenichi Shiraiwa, Behaviormetrika, 1992 ( pdf ). Isso se chama HCM (Modelo Canônico Hermitiano).

Encontre uma matriz hermitiana , em que Encontre os autovalores e autovetores e, em seguida, dimensione cada autovetor pela raiz quadrada do seu autovalor correspondente. $H$

H_{Eu j} = \frac{1 1}{2} [d (x_{Eu}, x_{j}) + d (x_{j}, x_{Eu})] + Eu \frac{1 1}{2} [d (x_{Eu}, x_{j}) - d (x_{j}, x_{Eu})]

$H_{ij} = \frac 1 2 [d(x_i, x_j) + d(x_j, x_i)] + i \frac 1 2 [d(x_i, x_j) - d(x_j, x_i)]$

Isso transforma os dados em um espaço de números complexos. Depois que os dados são incorporados, a distância entre os objetos x e y é apenas x * y, onde * é a transposição do conjugado. Nesse ponto, você pode executar k-means nos vetores complexos.

O agrupamento assimétrico espectral também foi realizado, veja a tese de Stefan Emilov Atev, "Usando a assimetria no agrupamento espectral de trajetórias", Universidade de Minnesota, 2011, que fornece código MATLAB para um algoritmo especial.

— andy_a
fonte

1

Você pode usar uma média (como uma média aritmética ou, para distribuições de probabilidade, a raiz quadrada da divergência de Jensen-Shannon).

— cyborg
fonte

1

Você deve dar uma olhada nas estatísticas circulares (se quiser trabalhar "dentro de" uma semana de pagamento)

— Lionel
fonte

1

Se sua função de distância não for um kernel Mercer válido, então , onde é a matriz Gram. Nesse caso, deseja co-clustering, também chamado de bi-clustering. Os algoritmos dessa classe produzem indicadores de cluster simultaneamente para as linhas e colunas. $X \neq X^T$ $X$

$|\text{days apart}|$

$\forall x \in D$

— Jessica Collins
fonte