Digamos que um modelo foi treinado na data usando os dados disponíveis, divididos em treinamento e teste, ou seja, , . Esse modelo é implantado na produção e faz previsões sobre os novos dados recebidos. Alguns dias passam e há um monte de dados rotulados que são coletados entre e dias, vamos chamá-lo de . Na minha abordagem atual, amostras aleatórias de (por exemplo, divisão 80/20),
Portanto, de = (novos dados usados para ajustar o modelo existente treinado em ) de = (novos dados adicionados ao )
Esse processo de ajuste repetido com o passar do tempo.
Ao fazer isso, obtenho um conjunto de testes em constante expansão, além de impedir a reciclagem de todo o modelo (essencialmente posso jogar fora os dados antigos conforme o modelo aprendeu com ele). O novo modelo gerado é apenas uma versão aprimorada do antigo.
Eu tenho algumas perguntas, sobre esta abordagem:
- Existem desvantagens óbvias em fazer isso?
- O modelo precisaria ser completamente treinado novamente (esquecendo tudo o que foi aprendido antes e treinando o modelo com novas divisões de trem / teste) após algum tempo ou a abordagem descrita acima pode continuar indefinidamente?
- Qual deve ser a condição para trocar o modelo implantado existente pelo modelo recém-ajustado?