Formalizações de cluster que não sejam meios K para dados separáveis


11

Os dados do mundo real às vezes têm um número natural de clusters (tentar agrupá-los em um número menor de clusters do que um k mágico causará um aumento dramático no custo de cluster). Hoje assisti a uma palestra do Dr. Adam Meyerson e ele se referiu a esse tipo de dados como "dados separáveis".

Quais são algumas formalizações de cluster, que não sejam meios K, que podem ser passíveis de algoritmos de cluster (aproximações ou heurísticas) que explorariam a separabilidade natural dos dados?

Respostas:


11

Um modelo recente que tenta capturar essa noção é de Balcan, Blum e Gupta '09. Eles dão algoritmos para vários objectivos de agrupamento quando os satisfaz dados uma certa suposição: a saber, que se os dados é tal que qualquer -approximation para o objetivo de agrupamento é ε -próximo ao ideal clustering, então eles podem dar algoritmos eficientes para encontrar uma quase agrupamento ótimo, mesmo para valores de c para os quais a aproximação c é NP-Hard. Esta é uma suposição de que os dados são de alguma forma "agradáveis" ou "separáveis". Lipton tem um bom post sobre isso.cϵcc

αα

Tenho certeza de que existem trabalhos anteriores e noções relevantes anteriores, mas esses são alguns resultados teóricos recentes relacionados à sua pergunta.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.