Uma estratégia de reforço pode melhorar o desempenho do seu modelo, por isso vale a pena tentar. Com relação ao aprendizado incremental / on-line, não conheço nenhum pacote no R que o implemente (outros, corrija-me se estiver errado). No Scikit Learn, existem classificadores fora do núcleo que permitem um aprendizado incremental. No entanto, se você estiver vinculado ao uso de R, poderá não ter outra opção a não ser gravar seu próprio modelo incremental. Em ambos os casos, analisar os classificadores fora do núcleo do Scikit Learn pode fornecer uma idéia de por onde começar.
Outro detalhe a ser lembrado é até que ponto a atualização do modelo em um único falso positivo ou falso negativo melhorará o desempenho do modelo. No domínio da fraude, geralmente existem milhares a milhões de vezes mais casos de não fraude do que fraude. Como tal, é importante tentar aprender a discriminar todas as instâncias de fraude corretamente, mas a atualização de um modelo em uma única instância de fraude provavelmente não mudará significativamente o modelo. Considere outras estratégias para fazer com que o modelo atribua mais significado às instâncias de fraude.
A maneira mais direta de melhorar seu modelo supervisionado, com base no feedback de investigadores humanos, seria criar um modelo separado das instâncias corrigidas (ou seja, as instâncias previstas incorretamente e depois rotuladas corretamente). Você pode, então, fazer com que seus dois modelos "votem" na classificação de instâncias futuras agregando as associações previstas para a classe. Por exemplo, o ModeloA pode acreditar que a Instância1 é [Fraude: 0,65, Não Fraude: 0,35], enquanto o ModeloB acredita que a Instância1 é [Fraude: 0,47, Não Fraude: 0,53]. A previsão do conjunto seria assim [Fraude: (0,65 + 0,47) /2=0,56, Não Fraude: (0,35 + 0,53) /2=0,44].
Se o seu modelo original tiver um desempenho melhor que o acaso, o número de instâncias classificadas corretamente será maior que o número classificado incorretamente. Portanto, você não deseja atribuir peso igual aos modelos se eles forem treinados em um número desproporcional de instâncias. Existem duas opções simples para lidar com essa disparidade: 1) espere até você acumular instâncias corrigidas suficientes para aproximadamente igual ao número em que o modelo original foi treinado ou 2) atribua peso a cada modelo com base no desempenho do modelo em um conjunto de validação.