Em uma pergunta recente e bem recebida, Tim pergunta quando os dados desequilibrados são realmente um problema no Machine Learning ? A premissa da pergunta é que há muita literatura de aprendizado de máquina discutindo o equilíbrio de classes e o problema das classes desequilibradas . A idéia é que conjuntos de dados com um desequilíbrio entre as classes positiva e negativa causam problemas para alguns algoritmos de classificação de aprendizado de máquina (eu estou incluindo modelos probabilísticos aqui), e métodos devem ser buscados para "equilibrar" o conjunto de dados, restaurando os parâmetros 50/50 perfeitos dividido entre classes positivas e negativas.
O senso geral das respostas aprovadas é que "não é, pelo menos se você é atencioso em sua modelagem". M. Henry L., em um comentário com voto positivo para uma resposta aceita, declara
[...] não há um problema de baixo nível com o uso de dados desequilibrados. Na minha experiência, o conselho para "evitar dados desequilibrados" é específico do algoritmo ou é herdado da sabedoria. Concordo com o AdamO que, em geral, dados desequilibrados não apresentam problemas conceituais para um modelo bem especificado.
AdamO argumenta que o "problema" com o equilíbrio de classes é realmente de raridade de classe
Portanto, pelo menos em regressão (mas suspeito em todas as circunstâncias), o único problema com dados desequilibrados é que você efetivamente possui um tamanho pequeno de amostra. Se qualquer método for adequado para o número de pessoas na classe mais rara, não haverá problema se a proporção de membros for desequilibrada.
Se esse é o verdadeiro problema em questão, deixa uma questão em aberto: qual é o objetivo de todos os métodos de reamostragem destinados a equilibrar o conjunto de dados: sobreamostragem, subamostragem, SMOTE, etc.? Claramente, eles não tratam do problema de ter implicitamente um pequeno tamanho de amostra; você não pode criar informações do nada!