Eu tenho um problema de classificação com aproximadamente 1000 amostras positivas e 10.000 amostras negativas no conjunto de treinamento. Portanto, esse conjunto de dados é bastante desequilibrado. A floresta aleatória simples está apenas tentando marcar todas as amostras de teste como uma classe majoritária.
Algumas boas respostas sobre subamostragem e floresta aleatória ponderada são fornecidas aqui: Quais são as implicações para o treinamento de um Tree Ensemble com conjuntos de dados altamente tendenciosos?
Quais métodos de classificação além da RF podem lidar com o problema da melhor maneira?