Criando um conjunto de dados desequilibrado

Gostaria de testar meu modelo treinado em um conjunto de dados desequilibrado. Existe algum algoritmo disponível para gerar dados sintéticos a partir de um conjunto de dados rotulado equilibrado (spam / não spam)?

unbalanced-classes synthetic-data

— Stuart Peterson
fonte

Você sempre pode desequilibrar qualquer conjunto de dados simplesmente subamostrando uma classe.

— user2974951

Experimente o SMOTE , um algoritmo usado para amostragem excessiva. Ele cria amostras sintéticas da classe que você deseja sobre-amostrar.

Você pode usar isso para criar qualquer número de amostras necessárias.

— Mary93
fonte

O SMOTE também pode ser usado para sub-amostragem?

— Stuart Peterson

Bem, você pode obter undersampling de classe A por oversampling classe nota ...

— b Kjetil Halvorsen

@StuartPeterson Não, SMOTE é um algoritmo sobre-amostragem, mas há muitos outros algoritmos de amostragem sob

— mary93