No meu conjunto de dados, temos variáveis contínuas e naturalmente discretas. Quero saber se podemos fazer cluster hierárquico usando os dois tipos de variáveis. E se sim, que medida de distância é apropriada?
No meu conjunto de dados, temos variáveis contínuas e naturalmente discretas. Quero saber se podemos fazer cluster hierárquico usando os dois tipos de variáveis. E se sim, que medida de distância é apropriada?
Respostas:
Uma maneira é usar o coeficiente de similaridade de Gower, que é uma medida composta 1 ; são necessárias variáveis quantitativas (como escala de classificação), binárias (como presente / ausente) e nominais (como trabalhador / professor / funcionário). Mais tarde, o Podani 2 adicionou uma opção para obter variáveis ordinais também.
O coeficiente é facilmente entendido mesmo sem uma fórmula; você calcula o valor de similaridade entre os indivíduos por cada variável, levando em consideração o tipo da variável e, em seguida, calcula a média de todas as variáveis. Geralmente, um programa que calcula Gower permitirá ponderar variáveis, ou seja, sua contribuição, para a fórmula composta. No entanto, a ponderação adequada de variáveis de tipo diferente é um problema , não existem diretrizes claras, o que faz com que Gower ou outros índices "compostos" de proximidade puxem a cara.
As facetas da semelhança de Gower ( ):
(É fácil estender a lista de tipos. Por exemplo, pode-se adicionar uma soma para variáveis de contagem, usando a distância qui-quadrado normalizada convertida em similaridade.)
O coeficiente varia entre 0 e 1.
Com distâncias euclidianas (distâncias que suportam o espaço euclidiano), praticamente qualquer técnica clássica de agrupamento serve. Incluindo meios K (se o seu programa K-meios puder processar matrizes de distância, é claro) e incluindo métodos medianos de Ward, centróide e mediano de agrupamento hierárquico . Usar meios K ou outros métodos baseados na distância euclidiana com distância métrica não euclidiana ainda é heuristicamente admissível, talvez. Com distâncias não métricas, nenhum desses métodos pode ser usado.
O parágrafo anterior fala sobre se os meios K ou Ward ou tais agrupamentos são legais ou não com a distância de Gower matematicamente (geometricamente). Do ponto de vista da escala de medição ("psicométrica"), não se deve calcular o desvio médio ou a distância euclidiana a partir dele em nenhum dado categórico (nominal, binário e ordinal); portanto, dessa posição, você simplesmente não pode processar o coeficiente de Gower por meios K, Ward etc. Esse ponto de vista adverte que, mesmo que um espaço euclidiano esteja presente, ele pode ser granulado, não suave ( veja o relacionado ).
Se você se deparou com essa pergunta e está se perguntando qual pacote baixar para usar a métrica Gower no R , o cluster
pacote possui uma função chamada daisy () , que por padrão usa a métrica da Gower sempre que tipos mistos de variáveis são usados. Ou você pode configurá-lo manualmente para usar a métrica de Gower.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
.