Cluster hierárquico com variáveis ​​categóricas


11

As variáveis ​​categóricas podem ser usadas no cluster hierárquico? Ouvi dizer que apenas variáveis ​​contínuas são usadas, mas já vi pessoas discutindo variáveis ​​categóricas que podem ou não ser usadas também. Alguém pode fornecer informações?


2
Sim, é claro, os dados categóricos são frequentemente objeto de análise de cluster, especialmente hierárquica. Existem muitas medidas de proximidade para variáveis ​​binárias (incluindo conjuntos fictícios, que são a ninhada de variáveis ​​categóricas); também medidas de entropia. Aglomerados de casos serão as combinações freqüentes de atributos, e várias medidas dão seu tempero específico para o cálculo de frequência. Um problema com o agrupamento de dados categóricos é a estabilidade das soluções. E essa pergunta recente apresenta a questão da correlação de variáveis.
ttnphns

Pesquise neste site para hierarchical clustering categoricaller tópicos relacionados.
ttnphns


Não acho que seja uma duplicata exatamente. A questão vinculada é sobre R e pode até estar fora de tópico agora. Esta pergunta é sobre estatísticas e não menciona um pacote de software.
Peter Flom

@ttnphns: você deseja postar seu comentário como resposta? Melhor ter uma resposta curta do que nenhuma resposta. Qualquer pessoa que tenha uma resposta melhor pode publicá-la.
Stephan Kolassa

Respostas:


3

Sim, é claro, os dados categóricos são frequentemente objeto de análise de cluster, especialmente hierárquica. Existem muitas medidas de proximidade para variáveis ​​binárias (incluindo conjuntos fictícios, que são a ninhada de variáveis ​​categóricas); também medidas de entropia. Aglomerados de casos serão as combinações freqüentes de atributos, e várias medidas dão seu tempero específico para o cálculo da frequência. Um problema com o agrupamento de dados categóricos é a estabilidade das soluções. E essa pergunta recente apresenta a questão da correlação de variáveis.


Copiei este comentário por @ttnphns como uma resposta do wiki da comunidade porque o comentário é, mais ou menos, uma resposta a esta pergunta. Temos uma lacuna dramática entre respostas e perguntas. Pelo menos parte do problema é que algumas perguntas são respondidas nos comentários: se os comentários que responderam à pergunta fossem respostas, teríamos menos perguntas sem resposta.
mkt - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.