Estou treinando um modelo de classificação com a Random Forest para discriminar entre 6 categorias. Meus dados transacionais têm aproximadamente 60k + observações e 35 variáveis. Aqui está um exemplo de como ele se parece aproximadamente.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Depois que o modelo for criado, eu gostaria de pontuar as observações da última semana. Como houve mudanças no sistema, as observações mais recentes se parecerão mais com o ambiente das observações atuais que eu gostaria de prever. Portanto, quero criar uma variável de peso para que a Floresta Aleatória dê mais importância às observações recentes.
Alguém sabe se o pacote randomForest em R é capaz de lidar com pesos por observação?
Além disso, você pode sugerir qual é um bom método para criar a variável de peso? Por exemplo, como meus dados são de 2013, eu estava pensando em usar o número do mês a partir da data como peso. Alguém vê algum problema com esse método?
Muito obrigado antecipadamente!