Estou procurando agrupar um pequeno conjunto de dados (64 observações de 4 variáveis de intervalo e uma única variável categórica de três fatores). Agora, sou bastante novo na análise de cluster, mas sei que houve um progresso considerável desde os dias em que o cluster hierárquico ou o k-means eram as únicas opções disponíveis. Em particular, parece que estão disponíveis novos métodos de clustering baseado em modelo que, como apontado por chl , permitem o uso de "índices de qualidade de ajuste para decidir sobre o número de clusters ou classes".
No entanto, o pacote R padrão para clustering baseado em modelo mclust
aparentemente não se encaixa nos modelos com tipos de dados mistos. O fpc
modelo irá, mas tem problemas para ajustá-lo, suspeito por causa da natureza não gaussiana das variáveis contínuas. Devo continuar com a abordagem baseada em modelo? Eu gostaria de continuar usando o R, se possível. A meu ver, tenho algumas opções:
- Converta a variável categórica de três níveis em duas variáveis fictícias e use
mclust
. Não tenho certeza se isso influenciará os resultados, mas se não, essa é minha opção preferida. - Transforme as variáveis contínuas de alguma forma e use o
fpc
pacote. - Use outro pacote R que ainda não encontrei.
- Crie uma matriz de dissimilaridade usando a medida de Gower e use técnicas tradicionais de cluster hierárquico ou de realocação.
O stats.se hivemind tem alguma sugestão aqui?