Frequentemente, eles dizem que não há outra técnica analítica tão fortemente do tipo "como você semeia, deve cortar", como é a análise de agrupamentos.
Metáfora de cluster . "Eu preferi esse método porque ele constitui clusters (ou de tal maneira) que atendem ao meu conceito de cluster em meu projeto em particular" . Cada algoritmo ou subalgoritmo / método de agrupamento implica sua estrutura / compilação / forma correspondente de um cluster. Em relação aos métodos hierárquicos, observei isso em um dos pontos aqui e também aqui. Ou seja, alguns métodos fornecem clusters que são prototipicamente "tipos", outros dão "círculos [por interesse]", ainda outras "plataformas [políticas]", "classes", "cadeias" etc. etc. Selecione o método que a metáfora do cluster combina com você. Por exemplo, se eu vejo meus segmentos de clientes como tipos - formas mais ou menos esféricas com compactação no meio, escolherei o método de ligação de Ward ou meios K, mas nunca o método de ligação único, claramente. Se eu precisar de um ponto representativo focal, eu poderia usar o método medóide. Se eu precisar selecionar pontos para eles serem representantes centrais e periféricos, eu poderia usar a abordagem DBSCAN.
Suposições de dados / método . "Preferi esse método porque minha natureza ou formato dos dados predispõe a ele" . Este ponto importante e vasto também é mencionado no meu link acima. Diferentes algoritmos / métodos podem exigir diferentes tipos de dados para eles ou diferentes medidas de proximidade a serem aplicadas aos dados e vice-versa, dados diferentes podem exigir métodos diferentes. Existem métodos para quantitativos e métodos para dados qualitativos. A mistura de características quantitativas e qualitativas reduz drasticamente o escopo de escolha entre os métodos. Ward ou K-significabaseiam-se - explícita ou implicitamente - apenas na medida da distância euclidiana (quadrada) e não na medida arbitrária. Os dados binários podem exigir medidas especiais de similaridade que, por sua vez, questionarão fortemente o uso de alguns métodos, por exemplo, Ward's ou K-means, para eles. Big data pode precisar de algoritmos especiais ou implementações especiais.
1about), uma validade tão alta pode ser parcialmente devida à peculiaridade aleatória do conjunto de dados fornecido; ter um conjunto de dados de teste é sempre benéfico.]
Validade externa . "Eu preferi esse método porque ele me dava clusters que diferem em seus antecedentes ou clusters que correspondem aos verdadeiros que eu conheço" . Se uma partição de cluster apresenta clusters que são claramente diferentes em algumas características importantes de background (por exemplo, não participaram da análise de cluster), é um ativo para o método que produziu a partição. Use qualquer análise que se aplique para verificar a diferença; também existem vários critérios de cluster externo úteis(Rand, F-measure, etc etc). Outra variante do caso de validação externa é quando, de alguma forma, você conhece os verdadeiros clusters em seus dados (conhece a "verdade básica"), como quando você mesmo gerou os clusters. Então, com que precisão o seu método de clustering é capaz de descobrir os clusters reais é a medida da validade externa.
Validade cruzada . "Preferi esse método porque está fornecendo clusters muito semelhantes em amostras equivalentes dos dados ou extrapolando bem para essas amostras" . Existem várias abordagens e seus híbridos, algumas mais viáveis com alguns métodos de agrupamento, enquanto outras com outros métodos. Duas abordagens principais são verificação de estabilidade e generalizaçãoVerifica. Verificando a estabilidade de um método de agrupamento, dividimos ou reamostramos aleatoriamente os dados em conjuntos parcialmente interceptados ou totalmente separados e fazemos o agrupamento em cada um; em seguida, combina e compara as soluções com alguma característica emergente do cluster (por exemplo, o local de tendência central de um cluster) se é estável entre os conjuntos. Verificar a generalização implica fazer cluster em um conjunto de trens e, em seguida, usar sua característica ou regra emergente de cluster para atribuir objetos a um conjunto de testes, além de fazer cluster no conjunto de testes. As participações no resultado da atribuição e no resultado do cluster dos objetos do conjunto de testes são comparadas.
Interpretação . "Eu preferi esse método porque ele me deu grupos que, explicados, são mais persuasivos de que há significado no mundo" . Não é estatístico - é sua validação psicológica. Quão significativos são os resultados para você, o domínio e, possivelmente, o público / cliente. Escolha o método que fornece resultados mais picantes e interpretáveis.
Gregariousness . Algumas pesquisas regularmente e todas as pesquisas ocasionalmente diziam "Eu preferi esse método porque ele forneceu com meus dados resultados semelhantes com vários outros métodos entre todos os que eu sondava" . Essa é uma estratégia heurística, mas questionável, que assume que existem dados bastante universais ou método bastante universal.
Os pontos 1 e 2 são teóricos e precedem a obtenção do resultado; confiar exclusivamente nesses pontos é a estratégia exploratória altiva e segura de si. Os pontos 3, 4 e 5 são empíricos e seguem o resultado; A confiança exclusiva nesses pontos é a estraté- gia e a estratégia exploratória de tentar tudo. O ponto 6 é criativo, o que significa que ele nega qualquer resultado para tentar reajustá-lo. O ponto 7 é o mauvaise leal.