Então, eu tenho uma matriz de cerca de 60 x 1000. Estou vendo como 60 objetos com 1000 recursos; os 60 objetos são agrupados em 3 classes (a, b, c). 20 objetos em cada classe, e sabemos a verdadeira classificação. Gostaria de fazer um aprendizado supervisionado neste conjunto de 60 exemplos de treinamento, e estou interessado tanto na precisão do classificador (e métricas relacionadas) quanto na seleção de recursos nos 1000 recursos.
Primeiro, como está minha nomenclatura?
Agora a verdadeira questão:
Eu poderia jogar florestas aleatórias nele, como declarado, ou em qualquer número de outros classificadores. Mas há uma sutileza - eu realmente só me importo em diferenciar a classe c das classes a e b. Eu poderia agrupar as classes aeb, mas existe uma boa maneira de usar o conhecimento a priori de que todos os objetos não-c provavelmente formam dois grupos distintos? Eu preferiria usar florestas aleatórias ou uma variante delas, já que foi demonstrado que é eficaz em dados semelhantes aos meus. Mas eu poderia estar convencido a tentar outras abordagens.