Ao tentar explicar as análises de cluster, é comum que as pessoas não entendam o processo como estando relacionadas à correlação das variáveis. Uma maneira de levar as pessoas a superar essa confusão é um enredo como este:
Isso mostra claramente a diferença entre a questão de saber se existem clusters e a questão de saber se as variáveis estão relacionadas. No entanto, isso ilustra apenas a distinção para dados contínuos. Estou tendo problemas para pensar em um analógico com dados categóricos:
ID property.A property.B
1 yes yes
2 yes yes
3 yes yes
4 yes yes
5 no no
6 no no
7 no no
8 no no
Podemos ver que existem dois grupos claros: pessoas com as propriedades A e B e aquelas sem. No entanto, se olharmos para as variáveis (por exemplo, com um teste qui-quadrado), elas estão claramente relacionadas:
tab
# B
# A yes no
# yes 4 0
# no 0 4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389
Acho que estou sem saber como construir um exemplo com dados categóricos que é análogo ao dos dados contínuos acima. É possível ter clusters em dados puramente categóricos sem que as variáveis também estejam relacionadas? E se as variáveis tiverem mais de dois níveis ou se você tiver um número maior de variáveis? Se o agrupamento de observações implica necessariamente relacionamentos entre as variáveis e vice-versa, isso implica que o agrupamento não vale realmente a pena quando você possui apenas dados categóricos (ou seja, você deve apenas analisar as variáveis)?
Atualização: deixei muito de fora da questão original, porque queria apenas me concentrar na idéia de que um exemplo simples poderia ser criado, que seria imediatamente intuitivo, mesmo para alguém que não estava familiarizado com as análises de cluster. No entanto, reconheço que muitos agrupamentos dependem de escolhas de distâncias e algoritmos, etc. Isso pode ajudar se eu especificar mais.
Reconheço que a correlação de Pearson é realmente apropriada apenas para dados contínuos. Para os dados categóricos, poderíamos pensar em um teste qui-quadrado (para uma tabela de contingência bidirecional) ou em um modelo log-linear (para tabelas de contingência multidirecional) como uma maneira de avaliar a independência das variáveis categóricas.
Para um algoritmo, poderíamos imaginar o uso de k-medoids / PAM, que pode ser aplicado tanto à situação contínua quanto aos dados categóricos. (Observe que parte da intenção por trás do exemplo contínuo é que qualquer algoritmo de cluster razoável possa detectar esses clusters e, caso contrário, um exemplo mais extremo deverá ser possível).
Em relação à concepção de distância. Eu assumi euclidiano para o exemplo contínuo, porque seria o mais básico para um espectador ingênuo. Suponho que a distância análoga aos dados categóricos (na medida em que seria a mais intuitiva imediatamente) seria uma correspondência simples. No entanto, estou aberto a discussões de outras distâncias se isso levar a uma solução ou apenas a uma discussão interessante.
[data-association]
tag. Não sei ao certo o que deve indicar e não possui orientação de trecho / uso. Nós realmente precisamos dessa tag? É parece um bom candidato para exclusão. Se realmente precisamos dele no CV e você sabe o que deve ser, você poderia ao menos adicionar um trecho?