Eu tenho alguns modelos preditivos cujo desempenho eu gostaria de testar novamente (ou seja, levar meu conjunto de dados, "rebobinar" para um ponto anterior no tempo e ver como o modelo teria um desempenho prospectivo).
O problema é que alguns dos meus modelos foram criados através de um processo interativo. Por exemplo, seguindo o conselho das Estratégias de modelagem de regressão de Frank Harrell , em um modelo eu usei splines cúbicos restritos para lidar com possíveis associações não lineares entre recursos e a resposta. Aloquei os graus de liberdade de cada spline com base em uma combinação de conhecimento de domínio e medidas univariadas de força de associação. Mas os graus de liberdade que eu quero permitir ao meu modelo obviamente dependem do tamanho do conjunto de dados, que varia drasticamente no teste posterior. Se não desejar escolher graus de liberdade separadamente para cada vez que o modelo for testado novamente, quais são minhas outras opções?
Por outro exemplo, atualmente estou trabalhando na detecção de outlier através da descoberta de pontos com alta alavancagem. Se eu estivesse feliz em fazer isso manualmente, simplesmente analisaria cada ponto de dados de alta alavancagem, verificaria se os dados estavam limpos e os filtraria ou os limparia manualmente. Mas isso depende de um monte de conhecimento de domínio, então não sei como automatizar o processo.
Eu gostaria de receber conselhos e soluções (a) para o problema geral de automatizar partes interativas do processo de construção de modelos ou (b) conselhos específicos para esses dois casos. Obrigado!