Essa questão pode ser muito aberta para obter uma resposta definitiva, mas espero que não.
Algoritmos de aprendizado de máquina, como SVM, GBM, Random Forest etc., geralmente possuem alguns parâmetros livres que, além de algumas orientações básicas, precisam ser ajustados para cada conjunto de dados. Isso geralmente é feito com algum tipo de técnica de re-amostragem (bootstrap, CV etc.) para ajustar o conjunto de parâmetros que fornecem o melhor erro de generalização.
Minha pergunta é: você pode ir longe demais aqui? As pessoas falam sobre fazer pesquisas na grade, mas por que simplesmente não tratar isso como um problema de otimização e detalhar o melhor conjunto de parâmetros possível? Eu perguntei sobre alguns mecanismos disso nesta pergunta, mas ele não recebeu muita atenção. Talvez a pergunta tenha sido mal feita, mas talvez a pergunta em si represente uma abordagem ruim que as pessoas geralmente não fazem?
O que me incomoda é a falta de regularização. Ao re-amostrar, posso descobrir que o melhor número de árvores a crescer em um GBM para este conjunto de dados é 647 com uma profundidade de interação de 4, mas como posso ter certeza de que isso será verdade para novos dados (assumindo a nova população é idêntico ao conjunto de treinamento)? Sem um valor razoável para "encolher" para (ou, se desejar, nenhuma informação prévia informativa) a re-amostragem parece ser o melhor que podemos fazer. Eu simplesmente não ouço nenhuma conversa sobre isso, então isso me faz pensar se há algo que estou perdendo.
Obviamente, há um grande custo computacional associado à realização de muitas e muitas iterações para extrair todo último poder preditivo de um modelo; portanto, isso é algo que você faria se tivesse tempo / esforço para fazer a otimização e tudo. de melhoria de desempenho é valioso.