Em geral, se tivermos um grande conjunto de dados, podemos dividi-lo em (1) treinamento, (2) validação e (3) teste. Usamos a validação para identificar os melhores hiperparâmetros na validação cruzada (por exemplo, C no SVM) e, em seguida, treinamos o modelo usando os melhores hiperparâmetros com o conjunto de treinamento e aplicamos o modelo treinado ao teste para obter o desempenho.
Se tivermos um pequeno conjunto de dados, não podemos criar um conjunto de treinamento e teste (amostras insuficientes). Portanto, faremos a validação cruzada (dobra k, deixar um fora, etc.) para avaliar o desempenho do modelo.
Vi que a validação cruzada aninhada (repetida ou estratificada) foi usada na configuração de um pequeno conjunto de dados, ou seja, para gerar desempenho generalizado do modelo e otimizar a seleção de parâmetros. Minha pergunta é: como posso obter os melhores hiperparâmetros na validação cruzada aninhada (repetida / não repetida)? Estou interessado em fazer isso no scikit-learn, se possível. Estou um pouco confuso sobre como fazê-lo.
Eu li vários recursos, mas nenhum me deu a resposta definitiva para esta pergunta:
Validação cruzada aninhada para seleção de modelo
Validação cruzada aninhada e seleção de recurso: quando executar a seleção de recurso?