Saldo no conjunto de treinamento
Para modelos de regressão logística, os dados de treinamento desequilibrados afetam apenas a estimativa de interceptação do modelo (embora isso obviamente incline todas as probabilidades previstas, o que por sua vez compromete suas previsões). Felizmente, a correção de interceptação é direta: desde que você saiba, ou possa adivinhar, a proporção verdadeira de 0s e 1s e saiba as proporções no conjunto de treinamento, você pode aplicar uma correção de eventos raros à interceptação. Os detalhes estão em King e Zeng (2001) [ PDF ].
Essas 'correções de eventos raros' foram projetadas para projetos de pesquisa de controle de caso, usados principalmente em epidemiologia, que selecionam casos escolhendo um número fixo e geralmente equilibrado de 0 casos e 1 casos, e precisam corrigir o viés de seleção da amostra resultante. De fato, você pode treinar seu classificador da mesma maneira. Escolha uma boa amostra equilibrada e corrija a interceptação para levar em conta o fato de que você selecionou na variável dependente para aprender mais sobre classes mais raras do que uma amostra aleatória poderia lhe dizer.
Fazendo previsões
Sobre um tópico relacionado, mas distinto: Não esqueça que você deve estar em um limiar inteligente para fazer previsões. Nem sempre é melhor prever 1 quando a probabilidade do modelo é maior 0,5. Outro limite pode ser melhor. Para esse fim, você deve examinar as curvas ROC (Receiver Operating Characteristic) do seu classificador, não apenas seu sucesso preditivo com um limite de probabilidade padrão.