É possível que a adição de dados gerados ao seu conjunto de dados diminua a proporção de fraude / não fraude e torne seu conjunto de dados mais representativo / utilizável?
Na GenieLog, estamos produzindo dados de teste para projetar e testar ferramentas de detecção de fraude. Em nosso gerador GEDIS Studio, podemos definir perfis regulares e perfis de fraudadores, instanciando cada categoria em uma proporção personalizável (por exemplo, 2% do cliente terá uso fraudulento de eventos gerados).
Fizemos isso com sucesso no uso de telecomunicações CDR ( http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html ) e uso de cartão de crédito. Há um acesso disponível gratuitamente ao gerador on-line em http://www.data-generator.com
Tenho certeza de que, mesmo que a ferramenta não corresponda às suas necessidades, pelo menos a abordagem pode ser valiosa. Caso contrário, eu estaria interessado em ler qualquer objeção :)
Saudações