Qual é a função de distância ideal para indivíduos quando os atributos são nominais?

Não sei qual função de distância entre indivíduos usar no caso de atributos nominais (categóricos não ordenados). Eu estava lendo alguns livros e eles sugerem a função Correspondência Simples , mas alguns livros sugerem que eu deva alterar os atributos nominais para binários e usar o Coeficiente Jaccard . No entanto, e se os valores do atributo nominal não forem 2? e se houver três ou quatro valores nesse atributo?

Qual função de distância devo usar para atributos nominais?

— Jane Doe
fonte

Achei esse post útil, na estatística V e Chi ao quadrado de Cramer.

— precisa saber é o seguinte

Tecnicamente, para calcular uma medida de des (similaridade) entre indivíduos em atributos nominais, a maioria dos programas primeiro recodifica cada variável nominal em um conjunto de variáveis binárias simuladas e depois calcula alguma medida para variáveis binárias. Aqui estão as fórmulas de algumas medidas de similaridade e dissimilaridade binárias usadas com frequência .

O que são variáveis fictícias (também chamadas one-hot)? Abaixo estão 5 indivíduos, duas variáveis nominais (A com 3 categorias, B com 2 categorias). 3 manequins criados no lugar de A, 2 manequins criados no lugar de B.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Não há necessidade de eliminar uma variável dummy como "redundante", como normalmente a faria na regressão com manequins. Não é praticado em cluster, embora em situações especiais você possa considerar essa opção.)

Existem muitas medidas para variáveis binárias, no entanto, nem todas se adequam logicamente a variáveis binárias fictícias , ou seja, antigas nominais. Você vê, para uma variável nominal, o fato "os dois indivíduos correspondem" e o fato "os dois indivíduos não correspondem" são de igual importância. Mas considere a medida popular de Jaccard , em que $\frac{a}{a+b+c}$

a - número de manequins 1 para ambos os indivíduos
b - número de manequins 1 para este e 0 para esse
c - número de manequins 0 para isso e 1 para isso
d - número de manequins 0 para ambos

Aqui incompatibilidade consiste em duas variantes, e ; mas para nós, como já foi dito, cada um deles é da mesma importância que a partida . Portanto, devemos ponderar duas vezes e obter a fórmula , conhecida como Dice (depois de Lee Dice) ou Czekanovsky-Sorensen . É mais apropriado para variáveis dummy. De fato, o famoso coeficiente de Gower composto (que é recomendado para você com seus atributos nominais) é exatamente igual a Dados quando todos os atributos são nominais. Observe também que, para variáveis simuladas , a medida de dados (entre indivíduos) = medida de Ochiai (que é simplesmente um $b$ $c$ $a$ $a$ $\frac{2a}{2a+b+c}$ cosseno ) = Kulczynsky 2 medida. E mais para sua informação, 1-Dice = distância binária de Lance-Williams, também conhecida como distância de Bray-Curtis . Veja quantos sinônimos - você certamente encontrará algo disso em seu software!

A validade intuitiva do coeficiente de similaridade dos dados deriva do fato de ser simplesmente a proporção de co-ocorrência (ou acordo relativo ). Para o snippet de dados acima, pegue a coluna nominal Ae calcule a 5x5matriz simétrica quadrada com 1(ambos os indivíduos se enquadram na mesma categoria) ou 0(não na mesma categoria). Calcule da mesma forma a matriz para B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Soma as entradas correspondentes das duas matrizes e divida por 2 (número de variáveis nominais) - aqui está a matriz dos coeficientes dos dados. (Portanto, na verdade você não precisa criar manequins para calcular o Dice, com operações de matriz você provavelmente o fará mais rápido da maneira descrita acima.) Consulte um tópico relacionado no Dice para a associação de atributos nominais .

Embora Dice seja a medida mais aparente a ser usada quando você deseja uma função de (des) similaridade entre os casos em que os atributos são categóricos, outras medidas binárias podem ser usadas - se a fórmula deles satisfizer considerações sobre seus dados nominais.

Medidas como a correspondência simples (SM ou Rand) que contêm no numerador não são adequadas pelo fato de tratar 0-0 (ambos os indivíduos fazem não possui um atributo / categoria comum específico) como uma correspondência, o que é obviamente absurdo com características qualitativas e originalmente nominais. Portanto, verifique a fórmula da semelhança ou dissimilaridade que planeja usar com os conjuntos de variáveis fictícias: se ela tem ou implica como fundamento da uniformidade, não use essa medida para dados nominais. Por exemplo, distância euclidiana quadrada , cuja fórmula se torna com dados binários apenas $\frac{a+d}{a+b+c+d}$ $d$ $d$ $b+c$ (e é sinônimo de distância de Manhattan ou distância de Hamming) trata como a base da semelhança. Na verdade, , em que é o número de atributos binários; portanto, a distância euclidiana é informativamente igual a SM e não deve ser aplicada a dados originalmente nominais. $d$ $d^2 = p(1-SM)$ $p$

Mas ...

Depois de ler o parágrafo "teórico" anterior, percebi que - apesar do que escrevi - a maioria dos coeficientes binários (também aqueles que usam ) praticamente o fazem na maioria das vezes. Estabeleci por meio de uma verificação que, com variáveis dummy obtidas de várias nominais, o coeficiente de dados está estritamente funcionalmente funcional com várias outras medidas binárias (acrônimo é a palavra-chave da medida no SPSS): $d$

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Como em muitas aplicações de uma matriz de proximidade, como em muitos métodos de análise de agrupamentos, os resultados não mudam ou se alteram suavemente sob a transformação linear (e às vezes até monotônica) de proximidades, parece que se pode justificar um grande número de medidas binárias além do Dice para obter resultados iguais ou semelhantes. Mas você deve primeiro considerar / explorar como o método específico (por exemplo, uma ligação no cluster hierárquico) reage a uma determinada transformação de proximidades.

Se sua análise de agrupamento ou MDS planejada é sensível a transformações monotônicas de distâncias, é melhor evitar usar medidas indicadas como "monotônicas" na tabela acima (e, portanto, sim, não é uma boa ideia usar a similaridade de Jaccard ou a distância euclidiana não-quartada com manequim , ou seja, atributos nominais anteriores).

— ttnphns
fonte

sim você está certo os valores .. assim que um atributo tem três valores possíveis

— Jane Doe

suponha que eu tenha dois valores do mesmo atributo, "bola", "nall", "pall" e o convertai em 11 01 e 00. Quero medir a distância de Jaccard entre 11 e 00. Nesse caso, então é o distância 1? pois a = 0 b = 2 c = 0 ed = 0? Por favor deixe-me saber!

— Jane Doe

Sinto falta do ponto de seu último comentário. Por favor, pergunte claramente. Ou use meus dados de exemplo acima com 5 pessoas e 2 atributos nominais e diga qual indivíduo com o qual você gostaria que eu comparasse e por qual medida de des (similaridade).

— ttnphns