Como atribuo mais peso a observações mais recentes em R?
Eu assumo isso como uma pergunta ou desejo comumente solicitado, mas tenho dificuldade em descobrir exatamente como implementar isso. Eu tentei procurar muito por isso, mas não consigo encontrar um bom exemplo prático.
No meu exemplo, eu teria um grande conjunto de dados ao longo do tempo. Quero dizer aplicar algum tipo de ponderação exponencial das linhas de dados mais recentes. Então, eu teria algum tipo de função exponencial dizendo que as observações em 2015 são ___ mais importantes para treinar o modelo do que as observações em 2012.
Minhas variáveis de conjunto de dados contêm uma mistura de valores categóricos e numéricos e meu destino é um valor numérico - se isso importa.
Gostaria de testar / experimentar isso usando modelos como GBM / Random Forest, idealmente no pacote CARET.
update-question
Agradeço a resposta dada abaixo sobre como diminuir exponencialmente o peso pela distância da data entre dois pontos.
No entanto, quando se trata de treinar esse modelo em sinal de intercalação, como exatamente os pesos são considerados? O valor do peso em cada uma das linhas de treinamento é a distância entre algum ponto no futuro e quando esse ponto ocorreu historicamente.
Os pesos entram em jogo apenas durante a previsão? Porque se eles entrarem em jogo durante o treinamento, isso não causaria todo tipo de problemas, já que várias dobras cruzadas teriam pesos variados, tentando prever algo que possa ter realmente em algum momento antes dele?