você precisa lidar com o desequilíbrio de classe se / porque ele melhora seu modelo (em dados não vistos). "Melhor" é algo que você precisa se definir. Pode ser precisão, pode ser um custo, pode ser a verdadeira taxa positiva etc.
Há uma nuance sutil que é importante compreender quando se fala em desequilíbrio de classe. Ou seja, seus dados estão desequilibrados porque:
- a própria distribuição dos dados é desequilibrada
Em alguns casos, uma classe ocorre muito mais que a outra. E está tudo bem. Nesse caso, você deve verificar se certos erros são mais caros que outros. Este é o exemplo típico de detecção de doenças mortais em pacientes, descobrindo se alguém é terrorista etc. Isso remonta à resposta curta. Se alguns erros são mais caros que outros, convém "puni-los", dando-lhes um custo mais alto. Portanto, um modelo melhor terá um custo menor. Se todos os erros são tão ruins, não há motivo real para você usar modelos sensíveis ao custo.
Também é importante observar que o uso de modelos sensíveis a custos não é específico para conjuntos de dados desequilibrados. Você pode usar esses modelos se seus dados também estiverem perfeitamente equilibrados.
- não representa a verdadeira distribuição dos dados
Às vezes, seus dados são "desequilibrados" porque não representam a verdadeira distribuição dos dados. Nesse caso, você deve ter cuidado, porque você tem "muitos" exemplos de uma classe e "muito poucos" da outra e, portanto, precisa garantir que seu modelo não exagere ou desajuste em um dessas classes.
Isso é diferente de usar custos, pois pode não ser o caso de um erro ser pior que outro. O que aconteceria é que você seria tendencioso e não seria benéfico para o seu modelo se os dados invisíveis não tivessem a mesma distribuição que os dados nos quais você treinou.
Digamos que eu lhe forneça dados de treinamento e seu objetivo é adivinhar se algo é vermelho ou azul. Se você confunde azul com vermelho ou vermelho com azul não faz muita diferença. Seus dados de treinamento têm 90% de instâncias vermelhas, onde na vida real, eles acontecem apenas 10% das vezes. Você precisaria lidar com isso para melhorar seu modelo.