Em muitas aplicações de aprendizado de máquina, os chamados métodos de aumento de dados permitiram construir modelos melhores. Por exemplo, assuma um conjunto de treinamento de imagens de cães e gatos. Girando, espelhando, ajustando o contraste, etc., é possível gerar imagens adicionais a partir das originais.
No caso de imagens, o aumento de dados é relativamente direto. No entanto, suponha (por exemplo) que se tenha um conjunto de treinamento de amostras e algumas centenas de variáveis contínuas que representam coisas diferentes. O aumento de dados não parece mais tão intuitivo. O que poderia ser feito nesse caso?