Esse é um problema interessante e muito frequente na classificação - não apenas nas árvores de decisão, mas em praticamente todos os algoritmos de classificação.
Como você descobriu empiricamente, um conjunto de treinamento que consiste em diferentes números de representantes de qualquer classe pode resultar em um classificador tendencioso para a classe majoritária. Quando aplicado a um conjunto de testes com desequilíbrio semelhante, esse classificador produz uma estimativa de precisão otimista. Em um caso extremo, o classificador pode atribuir todos os casos de teste à classe majoritária, alcançando uma precisão igual à proporção de casos de teste pertencentes à classe majoritária. Esse é um fenômeno bem conhecido na classificação binária (e se estende naturalmente às configurações de várias classes).
Essa é uma questão importante, porque um conjunto de dados desequilibrado pode levar a estimativas de desempenho infladas. Por sua vez, isso pode levar a conclusões falsas sobre a importância com que o algoritmo teve um desempenho melhor que o acaso.
A literatura de aprendizado de máquina sobre esse tópico desenvolveu essencialmente três estratégias de solução.
Você pode restaurar o equilíbrio no conjunto de treinamento por undersampling a grande classe ou por oversampling a pequena classe, para evitar viés de surgir em primeiro lugar.
Como alternativa, você pode modificar os custos de classificação incorreta, conforme observado em uma resposta anterior, novamente para evitar distorções.
ϕ : = 12( π++ π-) ,π+π−
Eu recomendaria considerar pelo menos duas das abordagens acima em conjunto. Por exemplo, você pode exagerar sua classe minoritária para impedir que seu classificador adquira um viés em favor da classe majoritária. Depois disso, ao avaliar o desempenho do seu classificador, você pode substituir a precisão pela precisão equilibrada. As duas abordagens são complementares. Quando aplicados em conjunto, devem ajudar a evitar o problema original e a evitar conclusões falsas.
Eu ficaria feliz em publicar algumas referências adicionais à literatura, se você gostaria de acompanhar isso.