Eu tenho um conjunto de dados composto por 5 recursos: A, B, C, D, E. Eles são todos valores numéricos. Em vez de fazer um cluster baseado em densidade, o que eu quero fazer é agrupar os dados de maneira semelhante a uma árvore de decisão.
A abordagem que quero dizer é algo como isto:
O algoritmo pode dividir os dados em X clusters iniciais com base no recurso C, ou seja, os clusters X podem ter valores C pequenos, médios C, grandes C e C muito grandes etc. Em seguida, em cada um dos nós do cluster X, o algoritmo divide os dados em clusters Y com base no recurso A. O algoritmo continua até que todos os recursos sejam utilizados.
O algoritmo que descrevi acima é como um algoritmo de árvore de decisão. Mas preciso dele para agrupamentos não supervisionados, em vez de classificação supervisionada.
Minhas perguntas são as seguintes:
- Esses algoritmos já existem? Qual é o nome correto para esse algoritmo
- Existe um pacote / biblioteca R / python que possui uma implementação desse tipo de algoritmo?
CHAID
árvore, por exemplo. Você deve escolher a variável dependente. Seja A. O algoritmo seleciona entre B, C, D, E a variável mais correlacionada com A e indica essa variável (digamos, o preditor, D) em duas ou mais categorias "idealmente" - para que a correlação (entre a variável categorizada D e a variável A é maximizada. Digamos, deixaram 3 grupos, D1, D2, D3. Em seguida, o mesmo procedimento é repetido dentro de cada categoria (grupo) de D separadamente e o melhor preditor entre B, C , E. é procurado sob uma lista. Etc. O que exatamente não combina com você aqui?
But I need it for unsupervised clustering, instead of supervised classification
Esta frase-chave por si só é muito breve e não expõe claramente o que você deseja. Acima, você descreveu o que me parece ser uma árvore de decisão. Agora você pode dar uma passagem semelhante sobre o algo que deseja?