Estou aplicando um algoritmo de floresta aleatória como um classificador em um conjunto de dados de microarrays que são divididos em dois grupos conhecidos com milhares de recursos. Após a execução inicial, analiso a importância dos recursos e executo o algoritmo em árvore novamente com os 5, 10 e 20 recursos mais importantes. Acho que para todos os recursos, top 10 e 20, a estimativa da taxa de erro OOB é 1,19%, enquanto que para os 5 principais recursos é 0%. Isso parece contra-intuitivo para mim, então eu queria saber se você poderia explicar se estou faltando alguma coisa ou se estou usando a métrica errada.
Estou usando o pacote randomForest em R com ntree = 1000, nodesize = 1 e mtry = sqrt (n)