Eu tenho um conjunto de dados X que tem 10 dimensões, 4 das quais são valores discretos. De fato, essas 4 variáveis discretas são ordinais, ou seja, um valor mais alto implica uma semântica maior / melhor.
2 dessas variáveis discretas são categóricas no sentido de que, para cada uma dessas variáveis, a distância, por exemplo, de 11 a 12, não é a mesma que a distância de 5 a 6. Enquanto um valor mais alto de variável implica em maior realidade, a escala é não necessariamente linear (na verdade, não está realmente definido).
Minha pergunta é:
- É uma boa idéia aplicar um algoritmo de agrupamento comum (por exemplo, K-Means e depois Gaussian Mixture (GMM)) a esse conjunto de dados que contém variáveis discretas e contínuas?
Se não:
- Devo remover as variáveis discretas e focar apenas as contínuas?
- Devo discretizar melhor os contínuos e usar um algoritmo de agrupamento para dados discretos?