Reamostragem, como feita durante (iterada) kA validação cruzada de quatro vezes gera "novos" conjuntos de dados que variam do conjunto de dados original removendo alguns casos.
Para facilitar a explicação e a clareza, eu inicializaria o cluster.
Em geral, você pode usar esses agrupamentos reamostrados para medir a estabilidade de sua solução: ela dificilmente muda ou muda completamente?
Mesmo que você não tenha uma base sólida, é claro que você pode comparar o agrupamento resultante de diferentes execuções do mesmo método (reamostragem) ou os resultados de diferentes algoritmos de agrupamento, por exemplo, tabulando:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
como os clusters são nominais, sua ordem pode mudar arbitrariamente. Mas isso significa que você tem permissão para alterar a ordem para que os clusters correspondam. Os elementos na diagonal * contam casos que são atribuídos ao mesmo cluster e elementos fora da diagonal mostram de que maneira as atribuições foram alteradas:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Eu diria que a reamostragem é boa para estabelecer a estabilidade do cluster em cada método. Sem isso, não faz muito sentido comparar os resultados com outros métodos.
* funciona também com matrizes não quadradas se resultar em diferentes números de clusters. Eu então alinharia para que os elementosi , item o significado da diagonal anterior. As linhas / colunas extras mostram a partir de quais clusters o novo cluster obteve seus casos.
Você não está misturando validação cruzada k-fold e agrupamento k-means, não é?