Já tínhamos várias perguntas sobre dados desequilibrados ao usar regressão logística , SVM , árvores de decisão , empacotamento e várias outras perguntas semelhantes, o que o torna um tópico muito popular! Infelizmente, cada uma das perguntas parece ser específica do algoritmo e não encontrei nenhuma orientação geral para lidar com dados desequilibrados.
Citando uma das respostas de Marc Claesen , lidando com dados desequilibrados
(...) depende muito do método de aprendizagem. A maioria das abordagens de propósito geral tem uma (ou várias) maneiras de lidar com isso.
Mas quando exatamente devemos nos preocupar com dados desequilibrados? Quais algoritmos são mais afetados por ele e quais são capazes de lidar com ele? Quais algoritmos precisariam que equilibrássemos os dados? Estou ciente de que discutir cada um dos algoritmos seria impossível em um site de perguntas e respostas como este. Estou procurando diretrizes gerais sobre quando isso pode ser um problema.