Eu tenho usado o pacote de intercalação no R para criar modelos preditivos para classificação e regressão. O Caret fornece uma interface unificada para ajustar os hiper-parâmetros do modelo por validação cruzada ou correias de inicialização. Por exemplo, se você está construindo um modelo simples de 'vizinhos mais próximos' para classificação, quantos vizinhos você deve usar? 2? 10? 100? O Caret ajuda você a responder a essa pergunta re-amostrando seus dados, tentando parâmetros diferentes e, em seguida, agregando os resultados para decidir qual produz a melhor precisão preditiva.
Eu gosto dessa abordagem porque ela fornece uma metodologia robusta para a escolha de hiperparâmetros do modelo e, depois de escolher os hiperparâmetros finais, ele fornece uma estimativa validada cruzada de quão "bom" é o modelo, usando a precisão para modelos de classificação e RMSE para modelos de regressão.
Agora eu tenho alguns dados de séries temporais para os quais desejo criar um modelo de regressão, provavelmente usando uma floresta aleatória. Qual é uma boa técnica para avaliar a precisão preditiva do meu modelo, dada a natureza dos dados? Se florestas aleatórias não se aplicam realmente a dados de séries temporais, qual é a melhor maneira de criar um modelo de conjunto preciso para análise de séries temporais?