Como selecionar um método de clustering? Como validar uma solução de cluster (para garantir a escolha do método)?


35

Um dos maiores problemas com a análise de cluster é que podemos ter que tirar conclusões diferentes quando baseamos nos diferentes métodos de cluster usados ​​(incluindo diferentes métodos de ligação no cluster hierárquico).

Gostaria de saber sua opinião sobre isso - qual método você selecionará e como. Pode-se dizer "o melhor método de agrupamento é o que lhe dá a resposta certa"; mas posso questionar em resposta que a análise de cluster deve ser uma técnica não supervisionada - então como sei qual método ou ligação é a resposta certa?

Em geral: um cluster é por si só robusto o suficiente para se confiar? Ou precisamos de um segundo método e obter um resultado compartilhado com base em ambos?

Minha pergunta não é apenas sobre possíveis maneiras de validar / avaliar o desempenho de cluster, mas é mais ampla - em que base selecionamos / preferimos um método / algoritmo de cluster em detrimento de outro. Além disso, existem avisos comuns que devemos procurar ao selecionar um método para agrupar nossos dados?

Eu sei que é uma pergunta muito geral e muito difícil de responder. Gostaria apenas de saber se você tem algum comentário, conselho ou sugestão para aprender mais sobre isso.


Verifique também esta pergunta semelhante.
Ttnphns


2
Alguns links especificamente sobre validação interna e externa: isso . E isso . E isso . E isso . E isso . E isso . E além . E procure por mais.
ttnphns

Respostas:


50

Frequentemente, eles dizem que não há outra técnica analítica tão fortemente do tipo "como você semeia, deve cortar", como é a análise de agrupamentos.

Eu posso imaginar várias dimensões ou aspectos da "correção" deste ou daquele método de agrupamento :

  1. Metáfora de cluster . "Eu preferi esse método porque ele constitui clusters (ou de tal maneira) que atendem ao meu conceito de cluster em meu projeto em particular" . Cada algoritmo ou subalgoritmo / método de agrupamento implica sua estrutura / compilação / forma correspondente de um cluster. Em relação aos métodos hierárquicos, observei isso em um dos pontos aqui e também aqui. Ou seja, alguns métodos fornecem clusters que são prototipicamente "tipos", outros dão "círculos [por interesse]", ainda outras "plataformas [políticas]", "classes", "cadeias" etc. etc. Selecione o método que a metáfora do cluster combina com você. Por exemplo, se eu vejo meus segmentos de clientes como tipos - formas mais ou menos esféricas com compactação no meio, escolherei o método de ligação de Ward ou meios K, mas nunca o método de ligação único, claramente. Se eu precisar de um ponto representativo focal, eu poderia usar o método medóide. Se eu precisar selecionar pontos para eles serem representantes centrais e periféricos, eu poderia usar a abordagem DBSCAN.

  2. Suposições de dados / método . "Preferi esse método porque minha natureza ou formato dos dados predispõe a ele" . Este ponto importante e vasto também é mencionado no meu link acima. Diferentes algoritmos / métodos podem exigir diferentes tipos de dados para eles ou diferentes medidas de proximidade a serem aplicadas aos dados e vice-versa, dados diferentes podem exigir métodos diferentes. Existem métodos para quantitativos e métodos para dados qualitativos. A mistura de características quantitativas e qualitativas reduz drasticamente o escopo de escolha entre os métodos. Ward ou K-significabaseiam-se - explícita ou implicitamente - apenas na medida da distância euclidiana (quadrada) e não na medida arbitrária. Os dados binários podem exigir medidas especiais de similaridade que, por sua vez, questionarão fortemente o uso de alguns métodos, por exemplo, Ward's ou K-means, para eles. Big data pode precisar de algoritmos especiais ou implementações especiais.

  3. 1 1about), uma validade tão alta pode ser parcialmente devida à peculiaridade aleatória do conjunto de dados fornecido; ter um conjunto de dados de teste é sempre benéfico.]

  4. Validade externa . "Eu preferi esse método porque ele me dava clusters que diferem em seus antecedentes ou clusters que correspondem aos verdadeiros que eu conheço" . Se uma partição de cluster apresenta clusters que são claramente diferentes em algumas características importantes de background (por exemplo, não participaram da análise de cluster), é um ativo para o método que produziu a partição. Use qualquer análise que se aplique para verificar a diferença; também existem vários critérios de cluster externo úteis(Rand, F-measure, etc etc). Outra variante do caso de validação externa é quando, de alguma forma, você conhece os verdadeiros clusters em seus dados (conhece a "verdade básica"), como quando você mesmo gerou os clusters. Então, com que precisão o seu método de clustering é capaz de descobrir os clusters reais é a medida da validade externa.

  5. Validade cruzada . "Preferi esse método porque está fornecendo clusters muito semelhantes em amostras equivalentes dos dados ou extrapolando bem para essas amostras" . Existem várias abordagens e seus híbridos, algumas mais viáveis ​​com alguns métodos de agrupamento, enquanto outras com outros métodos. Duas abordagens principais são verificação de estabilidade e generalizaçãoVerifica. Verificando a estabilidade de um método de agrupamento, dividimos ou reamostramos aleatoriamente os dados em conjuntos parcialmente interceptados ou totalmente separados e fazemos o agrupamento em cada um; em seguida, combina e compara as soluções com alguma característica emergente do cluster (por exemplo, o local de tendência central de um cluster) se é estável entre os conjuntos. Verificar a generalização implica fazer cluster em um conjunto de trens e, em seguida, usar sua característica ou regra emergente de cluster para atribuir objetos a um conjunto de testes, além de fazer cluster no conjunto de testes. As participações no resultado da atribuição e no resultado do cluster dos objetos do conjunto de testes são comparadas.

  6. Interpretação . "Eu preferi esse método porque ele me deu grupos que, explicados, são mais persuasivos de que há significado no mundo" . Não é estatístico - é sua validação psicológica. Quão significativos são os resultados para você, o domínio e, possivelmente, o público / cliente. Escolha o método que fornece resultados mais picantes e interpretáveis.

  7. Gregariousness . Algumas pesquisas regularmente e todas as pesquisas ocasionalmente diziam "Eu preferi esse método porque ele forneceu com meus dados resultados semelhantes com vários outros métodos entre todos os que eu sondava" . Essa é uma estratégia heurística, mas questionável, que assume que existem dados bastante universais ou método bastante universal.

Os pontos 1 e 2 são teóricos e precedem a obtenção do resultado; confiar exclusivamente nesses pontos é a estratégia exploratória altiva e segura de si. Os pontos 3, 4 e 5 são empíricos e seguem o resultado; A confiança exclusiva nesses pontos é a estraté- gia e a estratégia exploratória de tentar tudo. O ponto 6 é criativo, o que significa que ele nega qualquer resultado para tentar reajustá-lo. O ponto 7 é o mauvaise leal.

Os pontos 3 a 7 também podem ser juízes na sua seleção do "melhor" número de clusters .


1 1


11
Gosto muito das medidas de validade interna, como a soma das variações intra-cluster nos meios K e cluster hierárquico de Ward, bem como nos índices Dunn. Eles são independentes de dados e, às vezes, até independentes no algoritmo de clustering, embora alguns deles façam sentido apenas com algoritmos específicos.
Douglas De Rizzo Meneghetti

2
@DouglasDeRizzoMeneghetti Eu discordo. Eles não são independentes de dados (eles fazem suposições muito fortes sobre seus dados, como linearidade e equivalência de atributos), nem são independentes do algoritmo de clustering. De fato, toda medida interna é um algoritmo de cluster próprio (você pode otimizar para essa função - geralmente é muito caro fazer isso).
Anony-Mousse

11
Entendo que algumas medidas internas de validade, como a soma das variações intra-cluster, têm melhores resultados se as associações de cluster forem adquiridas através de um método de clustering que tende a minimizar a soma das variações intra-cluster e que uma medida de validade como a Dunn os índices assumem que bons clusters são compactos e distantes (mesmo que as interpretações de "compact" e "distantes" sejam deixadas em aberto para interpretação), mas o fato de que você pode calcular essas medidas apenas com os valores dos recursos e com as associações de cluster do elementos os tornam bastante versáteis.
Douglas De Rizzo Meneghetti

9

Existem principalmente critérios de bandeira vermelha . Propriedades dos dados que informam que uma certa abordagem falhará com certeza.

  1. se você não tem idéia do que seus dados significam, pare de analisá-los. você está apenas adivinhando animais nas nuvens.

  2. se os atributos variam em escala e não são lineares ou inclinados. isso pode arruinar sua análise, a menos que você tenha uma idéia muito boa da normalização apropriada. Pare e aprenda a entender seus recursos. É muito cedo para agrupar.

  3. se todo atributo for equivalente (mesma escala) e linear, e você quiser quantizar seu conjunto de dados (e o erro do quadrado mínimo tiver significado para seus dados), então k-means vale uma tentativa. Se seus atributos forem de tipo e escala diferentes, o resultado não será bem definido. Contra-exemplo: idade e renda. A renda é muito distorcida e não x years = y dollarfaz sentido.

  4. se você tiver uma idéia muito clara de como quantificar semelhança ou distância (de maneira significativa ; a capacidade de calcular algum número não é suficiente), o cluster hierárquico e o DBSCAN são uma boa opção. Se você não tem idéia de como quantificar a similaridade, resolva esse problema primeiro.

Você percebe que o problema mais comum é que as pessoas tentam despejar seus dados brutos no cluster, quando precisam primeiro entendê-los e normalizá-los e descobrir semelhanças.

Exemplos:

  1. Pixels de uma imagem no espaço RGB. Os mínimos quadrados fazem algum sentido e todos os atributos são comparáveis ​​- k-means é uma boa escolha.

  2. Dados geográficos: mínimos quadrados não é muito apropriado. haverá discrepâncias. mas a distância é muito significativa. Use DBSCAN se você tiver muito ruído ou HAC (clustering aglomerado hierárquico) se você tiver dados muito limpos.

  3. Espécies observadas em diferentes habitats. Os mínimos quadrados são duvidosos, mas, por exemplo, a semelhança de Jaccard é significativa. Você provavelmente tem apenas poucas observações e nenhum habitat "falso" - use HAC.


+1. Peço apenas que você encontre outra expressão em vez de stop criteria. Pois, como você sabe, "regras de parada" ou "critério de parada" é sinônimo de "critérios de armazenamento em cluster interno" no domínio do armazenamento em cluster hierárquico. Então, é um termo preocupado. Mas você quer dizer essas palavras em sentido diferente na resposta, e isso pode confundir o leitor.
ttnphns

11
Que tal "critérios de bandeira vermelha"? Parando o limite para o HAC, entendo o seu ponto.
Anony-Mousse

Ótimo para mim, boa escolha.
ttnphns

Nos pontos 2,3 você diz (non)linear attributes. O que você quer dizer? De que maneira um atributo "linear"? ou você está falando de relações lineares , ou seja, formas elipsóides (e não curvas) de aglomerados?
ttnphns

Dados com, por exemplo, uma distribuição exponencial.
Anony-Mousse

3

Eu não acho que exista uma boa maneira formal de fazer isso; Eu acho que as boas soluções são aquelas que fazem sentido, substancialmente.

Obviamente, você pode tentar dividir os dados e agrupar várias vezes e assim por diante, mas ainda há a questão de qual deles é útil.


2
Eu acho que o termo faz sentido não pode ser estressado o suficiente. Esse também é o ponto principal da minha resposta - você precisa entender seus dados primeiro.
Anony-Mousse

@ Anony-Mousse, é um exagero do seu lado. Aposto que as pessoas que não sabem ou se esquecem de "entender" seus dados dificilmente visitam este site e não fazem perguntas tão boas quanto as feitas aqui.
ttnphns

@ttnphns Não sei com que frequência essas pessoas visitam este site e certamente não fazem essas perguntas. Mas muitas pessoas esperam que a análise de cluster funcione como uma função do Excel. Selecione os dados, clique em "cluster" e os segmentos mágicos de clientes. O que nunca parece funcionar muito melhor do que aleatoriamente. E, por exemplo, esse usuário não conseguiram entender seus dados: stats.stackexchange.com/q/195521/7828
anony-Mousse
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.