Existem algoritmos de cluster não baseados em distância?

14

Parece que para médias K e outros algoritmos relacionados, o agrupamento é baseado no cálculo da distância entre pontos. Existe alguém que funciona sem ele?

— user154510
fonte

2

Exatamente o que você quer dizer com "agrupar" sem alguma maneira de quantificar a semelhança ou "proximidade" dos pontos?

— whuber

2

@ A resposta de Tim abaixo é muito boa. Você pode considerar a possibilidade de votar e / ou aceitá- lo, se isso o ajudou; é uma boa maneira de dizer 'obrigado'. Estendendo sua ideia, há uma análise de classe latente , que aplica uma abordagem semelhante aos dados categóricos. Uma abordagem não paramétrica para FMMs pode ser usada através das alturas de uma estimativa de densidade de kernel multivariada. Consulte Clustering via estimativa não-paramétrica de densidade: o pacote R pdfCluster ( pdf ) para obter mais informações.

— gung - Restabelece Monica

25

Um exemplo desse método são os Modelos de Mistura Finita (por exemplo, aqui ou aqui ) usados para agrupar. Em FMM você considerar a distribuição ( ) da sua variável como uma mistura de distribuições ( ): $f$ $X$ $K$ $f_1,...,f_k$

f (x, ϑ) = \sum_{k = 1}^{K} π_{k} f_{k} (x, ϑ_{k})

$f(x, \vartheta) = \sum^K_{k=1} \pi_k f_k(x, \vartheta_k)$

onde é um vector de parâmetros e é uma proporção de 'th distribuição na mistura e é um parâmetro (ou parâmetros) de distribuição . $\vartheta$ $\vartheta = (\pi', \vartheta_1', ..., \vartheta_k')'$ $\pi_k$ $k$ $\vartheta_k$ $f_k$

Um caso específico para dados discretos é a Análise de Classe Latente (por exemplo, aqui ) definida como:

P (x, k) = P (k) P (x | k)

$P(x, k) = P(k) P(x|k)$

onde é a probabilidade de observar a classe latente (ou seja, ), é a probabilidade de observar um valor e é a probabilidade de estar na classe . $P(k)$ $k$ $\pi_k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$

Normalmente, o algoritmo EM FMM e LCA EM é usado para estimativa, mas a abordagem bayesiana também é possível, mas um pouco mais exigente devido a problemas como identificação de modelo e troca de etiqueta (por exemplo, o blog de Xi'an ).

Portanto, não há medida de distância, mas um modelo estatístico que define a estrutura (distribuição) dos seus dados. Por esse outro nome desse método, "cluster baseado em modelo".

Confira os dois livros no FMM:

McLachlan, G. & Peel, D. (2000). Modelos de Mistura Finita. John Wiley & Sons.
Frühwirth-Schnatter, S. (2006). Modelos de mistura finita e chaveamento de Markov. Springer.

Um dos mais pacotes de agrupamento populares que usa FMM é mclust(confira aqui ou aqui ) que é implementado em R . No entanto, FMMs mais complicados também são possíveis, verifique, por exemplo, flexmixpacote e sua documentação . Para o LCA, existe um pacote R poLCA .

— Tim
fonte

Você tem uma boa noção de quais podem ser os diferentes casos de uso?

— shadowtalker

Como em "quando devo usar isso em vez de, digamos, particionar em torno do medoids?" Resposta muito boa mesmo assim

— shadowtalker

1

@caveman observa que é apenas uma convenção notacional. É um vetor de vetores, só isso.

— Tim

1

@caveman há

diferentes distribuições

que estão na mistura, cada um deles com seus próprios parâmetros (que é por isso que temos vetores de parâmetros).

k

$k$

f_{1}, . . ., f_{k}

$f_1,...,f_k$

— Tim

1

O caso mais típico do @caveman é que você tem

por exemplo, distribuições normais, com diferentes meios e sd. Mas eles podem diferir, veja o exemplo 3.1 em cran.r-project.org/web/packages/flexmix/vignettes/… que mostra a mistura de dois modelos de regressão diferentes.

k

$k$

— Tim

7

$\sim$

Existem várias abordagens de cluster baseadas em grade . Eles não calculam distâncias, porque isso geralmente geraria tempo de execução quadrático. Em vez disso, eles particionam os dados e os agregam em células da grade. Mas a intuição por trás de tais abordagens geralmente está intimamente relacionada às distâncias.

Existem vários algoritmos de armazenamento em cluster para dados categóricos , como COOLCAT e STUCCO. As distâncias não são fáceis de usar com esses dados (a codificação one-hot é um hack e não gera distâncias particularmente significativas). Mas eu nunca ouvi falar de alguém usando esses algoritmos ...

Existem abordagens de cluster para gráficos. Mas eles se reduzem a problemas gráficos clássicos, como localização de clique ou quase clique e coloração de gráfico, ou estão intimamente conectados ao cluster baseado em distância (se você tiver um gráfico ponderado).

Clusters baseados em densidade como DBSCAN têm um nome diferente e não se concentram em minimizar distâncias; mas "densidade" é geralmente especificada em relação a uma distância, portanto tecnicamente esses algoritmos são baseados em distância ou em grade.

A parte essencial da sua pergunta que você deixou de lado é quais são seus dados ?

— Possui QUIT - Anony-Mousse
fonte

1

+1: Compreendo que você mostre como qualquer algoritmo de agrupamento usa algum senso implícito (talvez) generalizado de "distância" ou "similaridade", e que você o faz enquanto oferece uma pesquisa de muitos desses algoritmos.

— whuber

Acho que por "baseado em distância" ele quis dizer métricas de similaridade, o que incluiria variação.

— en1 31/07/2015

1

Por que a variação seria uma métrica de similaridade? Está relacionado à distância euclidiana quadrada; mas não equivalente a distância arbitrária s .

— Saiu - Anony-Mousse

2

Além das respostas legais anteriores, eu sugeriria considerar os modelos de mistura de Dirichlet e os modelos de processo hierárquico hierárquico baseado em Bayesiano . Para uma visão geral abrangente e abrangente das abordagens e métodos para determinar um número ideal de clusters , consulte esta excelente resposta no StackOverflow : /programming//a/15376462/2872891 .

— Aleksandr Blekh
fonte

2

Uma abordagem puramente discriminativa é a "maximização regularizada da informação", de Gomes et al . Não há noção de similaridade / distância envolvida nela.

A idéia é ter uma regressão logística como o modelo que coloca pontos nas caixas. Mas, em vez de treiná-lo para maximizar alguma forma de probabilidade logarítmica dos rótulos das classes, a função objetivo é aquela que coloca pontos em diferentes grupos.

$\lambda$

A extensão para métodos de kernel ou redes neurais para cluster não linear é simples.

— bayerj
fonte