Duvido que a supervisão não funcione melhor, mas poderia ser um exercício interessante de experimentar. O aprendizado não supervisionado com floresta aleatória é feito através da construção de uma distribuição conjunta com base em suas variáveis independentes que descrevem aproximadamente seus dados. Em seguida, simule um certo número de observações usando essa distribuição. Por exemplo, se você tiver 1000 observações, poderá simular mais 1000. Então você os rotula, por exemplo, 1: = observação real, 0: = observação simulada. Depois disso, você executa um classificador aleatório de floresta comum tentando distinguir as observações reais das simuladas. Observe que você deve ter a opção calcular a proximidade ativada. O resultado realmente útil é exatamente isso, uma descrição da proximidade entre suas observações, com base no que a Random Forest faz ao tentar atribuir esses rótulos. Agora você tem uma descrição de como " Quero dizer, juntar observações que estão mais próximas do que um certo limite. Outra opção fácil é fazer cluster hierárquico, mas usando essa matriz de distância específica. Se você pode trabalhar com R, a maioria dos pacotes de armazenamento em cluster hierárquico permite alimentar as matrizes de distância personalizadas das funções. Em seguida, você seleciona um ponto de corte, pode visualizá-lo como um dendograma e assim por diante. Quero dizer, juntar observações que estão mais próximas do que um certo limite. Outra opção fácil é fazer cluster hierárquico, mas usando essa matriz de distância específica. Se você pode trabalhar com R, a maioria dos pacotes de armazenamento em cluster hierárquico permite alimentar as matrizes de distância personalizadas das funções. Em seguida, você seleciona um ponto de corte, pode visualizá-lo como um dendograma e assim por diante.
Este costumava ser um tutorial muito bom sobre o agrupamento Random Forest e eles compartilhavam algumas funções R úteis que eles escreveram para esse fim, mas o link parece estar morto agora. Talvez volte mais tarde. Eles também escreveram um pacote glm R aleatório muito elegante (que é análogo a floresta aleatória, mas baseado em duh ... glms) se você quiser conferir isso. Você sempre pode escrever para os autores e pedir o material para a classificação Random Forest, que costumava estar disponível no link morto. Eu tenho o código R, mas é muito grande para colar aqui, posso enviá-lo para você se você me enviar uma mensagem privada.