Estou tentando fazer previsões usando um modelo aleatório de floresta em R.
No entanto, recebo erros, pois alguns fatores têm valores diferentes no conjunto de testes e no conjunto de treinamento. Por exemplo, um fator Cat_2
possui valores 34, 68, 76
, etc., no conjunto de testes que não aparecem no conjunto de treinamento. Infelizmente, não tenho controle sobre o conjunto de testes ... devo usá-lo como está.
Minha única solução alternativa foi converter os fatores problemáticos novamente em valores numéricos, usando as.numeric()
. Ele funciona , mas não estou muito satisfeito, uma vez que estes valores são códigos que não têm nenhum senso numérico ...
Você acha que haveria outra solução, eliminar os novos valores do conjunto de testes? Mas sem remover todos os outros valores de fator (digamos 1, 2, 14, 32
, valores etc.) que estão no treinamento e no teste, e contém informações potencialmente úteis para previsões.