Estou explorando diferentes métodos de classificação para um projeto em que estou trabalhando e estou interessado em experimentar as Florestas Aleatórias. Estou tentando me educar ao longo do curso e gostaria de receber qualquer ajuda fornecida pela comunidade do CV.
Dividi meus dados em conjuntos de treinamento / teste. Desde a experimentação com florestas aleatórias no R (usando o pacote randomForest), tenho tido problemas com uma alta taxa de classificação incorreta para minha classe menor. Eu li este artigo sobre o desempenho de florestas aleatórias em dados desequilibrados, e os autores apresentaram dois métodos para lidar com o desequilíbrio de classe ao usar florestas aleatórias.
1. Florestas aleatórias ponderadas
2. Florestas aleatórias equilibradas
O pacote R não permite a ponderação das classes (nos fóruns de ajuda do R, eu li que o parâmetro classwt não está funcionando corretamente e está agendado como uma futura correção de bug); portanto, fico com a opção 2. Posso especificar o número de objetos amostrados de cada classe para cada iteração da floresta aleatória.
Sinto-me desconfortável em definir tamanhos de amostra iguais para florestas aleatórias, pois sinto que estaria perdendo muitas informações sobre a classe maior, levando a um desempenho ruim com dados futuros. As taxas de classificação incorreta ao reduzir a amostragem da classe maior mostraram melhora, mas eu queria saber se havia outras maneiras de lidar com tamanhos de classes desequilibrados em florestas aleatórias?