Criando um conjunto de dados desequilibrado


11

Gostaria de testar meu modelo treinado em um conjunto de dados desequilibrado. Existe algum algoritmo disponível para gerar dados sintéticos a partir de um conjunto de dados rotulado equilibrado (spam / não spam)?


Você sempre pode desequilibrar qualquer conjunto de dados simplesmente subamostrando uma classe.
user2974951

Respostas:


8

Experimente o SMOTE , um algoritmo usado para amostragem excessiva. Ele cria amostras sintéticas da classe que você deseja sobre-amostrar.

Você pode usar isso para criar qualquer número de amostras necessárias.


1
O SMOTE também pode ser usado para sub-amostragem?
Stuart Peterson

Bem, você pode obter undersampling de classe A por oversampling classe nota ...
b Kjetil Halvorsen

3
@StuartPeterson Não, SMOTE é um algoritmo sobre-amostragem, mas há muitos outros algoritmos de amostragem sob
mary93
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.