Minha tarefa de 'aprendizado de máquina' é separar o tráfego benigno da Internet do tráfego malicioso. No cenário do mundo real, a maioria (digamos 90% ou mais) do tráfego da Internet é benigna. Assim, senti que deveria escolher uma configuração de dados semelhante para treinar meus modelos também. Mas me deparei com um ou dois trabalhos de pesquisa (na minha área de trabalho) que usavam uma abordagem de dados de "equilíbrio de classe" para treinar os modelos, implicando um número igual de instâncias de tráfego benigno e malicioso.
Em geral, se estou construindo modelos de aprendizado de máquina, devo procurar um conjunto de dados representativo do problema do mundo real ou um conjunto de dados balanceado mais adequado para a construção dos modelos (já que determinados classificadores não se comportam bem com desequilíbrio de classe, ou devido a outros motivos que não me são conhecidos)?
Alguém pode lançar mais luz sobre os prós e contras das duas opções e como decidir qual escolher?