Apesar das abordagens semelhantes e outras crescentes de variabilidade de dados, a floresta aleatória "como um algoritmo" pode ser considerada uma boa opção para a classificação de dados desequilibrada?
Apesar das abordagens semelhantes e outras crescentes de variabilidade de dados, a floresta aleatória "como um algoritmo" pode ser considerada uma boa opção para a classificação de dados desequilibrada?
Respostas:
É não uma boa opção.
As florestas aleatórias são construídas em árvores de decisão e as árvores de decisão são sensíveis ao desequilíbrio de classe . Cada árvore é construída em um saco e cada saco é uma amostra aleatória uniforme dos dados (com substituição). Portanto, cada árvore será enviesada na mesma direção e magnitude (em média) pelo desequilíbrio de classe.
Existem várias técnicas para reduzir ou mitigar o desequilíbrio de classe, algumas das quais gerais e outras específicas de florestas aleatórias. Esse tópico foi discutido extensivamente aqui e em outros lugares.
editar: eu acrescentaria que não acho que seja dramaticamente pior do que qualquer outra opção, por exemplo, regressão logística, embora não tenha provas disso
Classes desequilibradas são apenas um problema se você também tiver um desequilíbrio de custo com classificação incorreta. Se houver classes minoritárias pequenas e não for mais caro classificá-las como classe majoritária do que o contrário, o racional a fazer é permitir a classificação incorreta de classes minoritárias.
Então, vamos supor que você tenha desequilíbrio de classe e custo. Existem várias maneiras de lidar com isso. O livro de Max Kuhn, "Modelagem preditiva aplicada", apresenta uma boa visão geral no capítulo 16. Esses remédios incluem o uso de um ponto de corte diferente de 0,5, que reflete os custos desiguais. Isso é fácil de fazer na classificação binária, desde que o seu classificador produz probabilidades de rótulo (árvores e florestas fazem isso). Ainda não procurei em várias classes. Você também pode exagerar a classe minoritária para dar mais peso.