Qual das opções abaixo é a correta ao criar um modelo preditivo?
Opção 1:
Primeiro, elimine os preditores obviamente mais ruins e pré-processe os demais, se necessário, treine vários modelos com validação cruzada, escolha os poucos melhores, identifique os principais preditores que cada um usou, depois treine novamente esses modelos com esses preditores e avalie a precisão novamente com a validação cruzada, escolha o melhor e treine-o em todo o conjunto de treinamento usando seus principais preditores e, em seguida, use-o para prever o conjunto de testes.
Opção 2:
Primeiro elimine os preditores obviamente mais ruins, depois processe o restante, se necessário, e use uma técnica de seleção de recursos como a seleção recursiva de recursos (por exemplo, RFE com rf) com validação cruzada, por exemplo, para identificar o número ideal de preditores principais e o que esses preditores , treine diferentes tipos de modelo com validação cruzada e veja qual deles oferece a melhor precisão com os principais preditores identificados anteriormente. Treine o melhor desses modelos novamente com esses preditores no conjunto de treinamento completo e use-o para prever o conjunto de testes.