Tecnicamente, para calcular uma medida de des (similaridade) entre indivíduos em atributos nominais, a maioria dos programas primeiro recodifica cada variável nominal em um conjunto de variáveis binárias simuladas e depois calcula alguma medida para variáveis binárias. Aqui estão as fórmulas de algumas medidas de similaridade e dissimilaridade binárias usadas com frequência .
O que são variáveis fictícias (também chamadas one-hot)? Abaixo estão 5 indivíduos, duas variáveis nominais (A com 3 categorias, B com 2 categorias). 3 manequins criados no lugar de A, 2 manequins criados no lugar de B.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Não há necessidade de eliminar uma variável dummy como "redundante", como normalmente a faria na regressão com manequins. Não é praticado em cluster, embora em situações especiais você possa considerar essa opção.)
Existem muitas medidas para variáveis binárias, no entanto, nem todas se adequam logicamente a variáveis binárias fictícias , ou seja, antigas nominais. Você vê, para uma variável nominal, o fato "os dois indivíduos correspondem" e o fato "os dois indivíduos não correspondem" são de igual importância. Mas considere a medida popular de Jaccard , em queaa+b+c
- a - número de manequins 1 para ambos os indivíduos
- b - número de manequins 1 para este e 0 para esse
- c - número de manequins 0 para isso e 1 para isso
- d - número de manequins 0 para ambos
Aqui incompatibilidade consiste em duas variantes, e ; mas para nós, como já foi dito, cada um deles é da mesma importância que a partida . Portanto, devemos ponderar duas vezes e obter a fórmula , conhecida como Dice (depois de Lee Dice) ou Czekanovsky-Sorensen . É mais apropriado para variáveis dummy. De fato, o famoso coeficiente de Gower composto (que é recomendado para você com seus atributos nominais) é exatamente igual a Dados quando todos os atributos são nominais. Observe também que, para variáveis simuladas , a medida de dados (entre indivíduos) = medida de Ochiai (que é simplesmente umc a a 2 abcaa2a2a+b+ccosseno ) = Kulczynsky 2 medida. E mais para sua informação, 1-Dice = distância binária de Lance-Williams, também conhecida como distância de Bray-Curtis . Veja quantos sinônimos - você certamente encontrará algo disso em seu software!
A validade intuitiva do coeficiente de similaridade dos dados deriva do fato de ser simplesmente a proporção de co-ocorrência (ou acordo relativo ). Para o snippet de dados acima, pegue a coluna nominal A
e calcule a 5x5
matriz simétrica quadrada com 1
(ambos os indivíduos se enquadram na mesma categoria) ou 0
(não na mesma categoria). Calcule da mesma forma a matriz para B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Soma as entradas correspondentes das duas matrizes e divida por 2 (número de variáveis nominais) - aqui está a matriz dos coeficientes dos dados. (Portanto, na verdade você não precisa criar manequins para calcular o Dice, com operações de matriz você provavelmente o fará mais rápido da maneira descrita acima.) Consulte um tópico relacionado no Dice para a associação de atributos nominais .
Embora Dice seja a medida mais aparente a ser usada quando você deseja uma função de (des) similaridade entre os casos em que os atributos são categóricos, outras medidas binárias podem ser usadas - se a fórmula deles satisfizer considerações sobre seus dados nominais.
Medidas como a correspondência simples (SM ou Rand) que contêm no numerador não são adequadas pelo fato de tratar 0-0 (ambos os indivíduos fazem não possui um atributo / categoria comum específico) como uma correspondência, o que é obviamente absurdo com características qualitativas e originalmente nominais. Portanto, verifique a fórmula da semelhança ou dissimilaridade que planeja usar com os conjuntos de variáveis fictícias: se ela tem ou implica como fundamento da uniformidade, não use essa medida para dados nominais. Por exemplo, distância euclidiana quadrada , cuja fórmula se torna com dados binários apenas ddb+cdd2=p(1-SM)pa+da+b+c+dddb+c(e é sinônimo de distância de Manhattan ou distância de Hamming) trata como a base da semelhança. Na verdade, , em que é o número de atributos binários; portanto, a distância euclidiana é informativamente igual a SM e não deve ser aplicada a dados originalmente nominais.dd2=p(1−SM)p
Mas ...
Depois de ler o parágrafo "teórico" anterior, percebi que - apesar do que escrevi - a maioria dos coeficientes binários (também aqueles que usam ) praticamente o fazem na maioria das vezes. Estabeleci por meio de uma verificação que, com variáveis dummy obtidas de várias nominais, o coeficiente de dados está estritamente funcionalmente funcional com várias outras medidas binárias (acrônimo é a palavra-chave da medida no SPSS):d
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Como em muitas aplicações de uma matriz de proximidade, como em muitos métodos de análise de agrupamentos, os resultados não mudam ou se alteram suavemente sob a transformação linear (e às vezes até monotônica) de proximidades, parece que se pode justificar um grande número de medidas binárias além do Dice para obter resultados iguais ou semelhantes. Mas você deve primeiro considerar / explorar como o método específico (por exemplo, uma ligação no cluster hierárquico) reage a uma determinada transformação de proximidades.
Se sua análise de agrupamento ou MDS planejada é sensível a transformações monotônicas de distâncias, é melhor evitar usar medidas indicadas como "monotônicas" na tabela acima (e, portanto, sim, não é uma boa ideia usar a similaridade de Jaccard ou a distância euclidiana não-quartada com manequim , ou seja, atributos nominais anteriores).