A maioria dos algoritmos clássicos de agrupamento e redução de dimensionalidade (agrupamento hierárquico, análise de componentes principais, médias médias, mapas auto-organizados ...) são projetados especificamente para dados numéricos, e seus dados de entrada são vistos como pontos em um espaço euclidiano.
É claro que isso é um problema, pois muitas perguntas do mundo real envolvem dados mistos: por exemplo, se estudarmos ônibus, a altura, o comprimento e o tamanho do motor serão números, mas também podemos estar interessados em cores (variável categórica: azul / vermelho / verde ...) e classes de capacidade (variável ordenada: capacidade pequena / média / grande). Especificamente, podemos querer estudar esses diferentes tipos de variáveis simultaneamente.
Existem vários métodos para estender algos de agrupamento clássicos a dados mistos, por exemplo, usando uma dissimilaridade de Gower para conectar-se a agrupamentos hierárquicos ou dimensionamento multidimensional, ou outros métodos que utilizam uma matriz de distância como entrada. Ou, por exemplo, esse método, uma extensão do SOM para dados mistos.
Minha pergunta é: por que não podemos simplesmente usar a distância euclidiana em variáveis mistas? ou por que é ruim fazer isso? Por que não podemos simplesmente codificar dummy as variáveis categóricas, normalizar todas as variáveis para que elas tenham um peso semelhante na distância entre as observações e executar os algos usuais nessas matrizes?
É realmente fácil, e nunca foi feito, então suponho que esteja muito errado, mas alguém pode me dizer por quê? E / ou me dê alguns árbitros? obrigado