O que você faz quando não há ponto de cotovelo para o agrupamento de kmeans


13

Aprendi que, ao escolher um número de clusters, você deve procurar um ponto de cotovelo para diferentes valores de K. Plotei os valores de ininss para valores de k de 1 a 10, mas não estou vendo uma clara cotovelo. O que você faz em um caso como esse?

KMeans problemáticos


2
Existem muitos critérios de agrupamento, sendo a regra "cotovelo da SS" apenas um e não o melhor. Tente outro. É bem provável que você não tenha clusters em seus dados.
ttnphns

@ttnphns O que é esse outro místico de quem você fala? Como não posso ter clusters nos meus dados? Como eu sei?
Glen

Respostas:


7

Método errado?

Talvez você esteja usando o algoritmo errado para o seu problema.

Pré-processamento errado?

O K-means é altamente sensível ao pré-processamento. Se um atributo estiver em uma escala muito maior que os outros, ele dominará a saída. Sua saída será efetivamente unidimensional

Visualizar resultados

Faça o que fizer, você precisará validar seus resultados com algo diferente de iniciar em um número como o SSQ. Em vez disso, considere a visualização .

A visualização também pode dizer que talvez exista apenas um único cluster nos seus dados.


Quais são algumas boas opções de visualização para dados multidimensionais?
Jeremy

1
Depende dos seus dados. Alguns dados podem ser projetados bem, porque possuem uma dimensionalidade intrínseca muito menor. As séries temporais podem ser facilmente plotadas e, se seus dados forem uma imagem serializada, visualize-os como imagens? De qualquer forma, a visualização depende dos seus dados, nunca haverá uma solução única para todos.
Quit - Anony-Mousse 15/03/14

3

Uma maneira é inspecionar manualmente os membros de seus clusters em busca de um k específico para ver se os agrupamentos fazem sentido (eles são distinguíveis?). Isso pode ser feito através de tabelas de contingência e meios condicionais. Faça isso para uma variedade de k e você pode determinar qual valor é apropriado.

Uma maneira menos subjetiva é usar o valor da silhueta:

/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function

Isso pode ser calculado com o seu pacote de software favorito. No link:

Este método apenas compara a semelhança intragrupo à semelhança de grupo mais próxima. Se qualquer distância média de um membro de dados para outros membros do mesmo cluster for maior que a distância média de alguns outros membros do cluster, esse valor será negativo e o armazenamento em cluster não será bem-sucedido. Por outro lado, valores de silhuette próximos a 1 indicam uma operação de cluster bem-sucedida. 0,5 não é uma medida exata para cluster.


Glen, pessoalmente acho que sua resposta está incompleta. O primeiro parágrafo não parece claro. O que é essa "inspeção manual", você pode descrever o procedimento, por favor? Então, Silhouette é "menos subjetivo" do que o que ? E porque?
ttnphns

@ttnphns resposta atualizada.
Glen

contingency tables and conditional meansIsso é mais místico. O que devo fazer com eles para chegar "subjetivamente" a um bom k?
ttnphns

@ttnphns Se o pôster tiver alguma dúvida, eu continuarei. Como eu disse, você deve verificar se os agrupamentos são distinguíveis. Parece claro para mim.
Glen

Portanto, se eu receber valores baixos de silhueta (~ .35), isso pode indicar que esses dados realmente não têm bons clusters?
Jeremy

0
  • Nenhum cotovelo para K-significa não significa que não há agrupamentos nos dados;
  • Nenhum cotovelo significa que o algoritmo usado não pode separar clusters; (pense nos meios K para círculos concêntricos, vs DBSCAN)

Geralmente, você pode considerar:

  • ajuste seu algoritmo;
  • use outro algoritmo;
  • faça pré-processamento de dados.

-1

Podemos usar o pacote NbClust para encontrar o valor mais ideal de k. Ele fornece 30 índices para determinar o número de clusters e propõe o melhor resultado.

NbClust (dados = df, distância = "euclidiano", min.nc = 2, max.nc = 15, método = "kmeans", índice = "todos")


Bem vindo ao site! Você poderia expandir esta resposta? Embora útil, um pouco mais de detalhes o tornariam mais útil.
mkt - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.