Gostaria de executar uma combinação de superamostragem e subamostragem para equilibrar meu conjunto de dados com aproximadamente 4000 clientes divididos em dois grupos, onde um dos grupos tem uma proporção de aproximadamente 15%.
Examinei o SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) e o ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), mas ambos criam novas amostras sintéticas usando observações existentes e, por exemplo, kNN.
No entanto, como muitos dos atributos associados aos clientes são categóricos, não acho que esse seja o caminho certo a seguir. Por exemplo, muitas das minhas variáveis, como Region_A e Region_B, são mutuamente exclusivas, mas usando o kNN as novas observações podem ser colocadas na Region_A e na Region_B. Você concorda que isso é um problema?
Nesse caso - como executar uma superamostragem em R simplesmente duplicando as observações existentes? Ou esta é a maneira errada de fazer isso?