Perguntei-me se o uso da validação cruzada para encontrar os melhores parâmetros de ajuste para várias técnicas de aprendizado de máquina é diferente da espionagem de dados.
Sua preocupação está no ponto certo e há muita literatura sobre esse tópico, por exemplo,
- Cawley, GC & Talbot, NLC: Sobre a adaptação excessiva na seleção de modelos e o viés de seleção subsequente na avaliação de desempenho, Journal of Machine Learning Research, 11, 2079-2107 (2010).
- Boulesteix, A.L .: Excesso de otimismo na pesquisa em bioinformática., Bioinformatics, 26, 437-439 (2010). DOI: 10.1093 / bioinformática / btp648
- Jelizarow, M .; Guillemot, V .; Tenenhaus, A .; Strimmer, K. & Boulesteix, A.L .: Excesso de otimismo em bioinformática: uma ilustração., Bioinformatics, 26, 1990-1998 (2010). DOI: 10.1093 / bioinformática / btq323
O problema é que o ajuste de hiperparâmetro com validação cruzada é um processo de otimização orientado a dados e ainda tenderá a se ajustar demais ao seu conjunto de dados (menos do que o ajuste por erro de re-substituição, mas ainda). Tentar usar os resultados da validação cruzada de ajuste como medida de desempenho "independente" é como comer o bolo (= ajuste) e mantê-lo (= medir o desempenho do modelo final).
Isso não significa que você não deve usar a validação cruzada para o ajuste do hiperparâmetro. Significa apenas que você pode usá-lo apenas para um propósito. Otimize ou avalie o desempenho do modelo para fins de validação.
A solução é que você precisa fazer uma validação independente para medir a qualidade do modelo obtido com os hiperparâmetros ajustados. Isso é chamado de validação aninhada ou dupla. Você encontrará várias perguntas e respostas aqui sobre esses tópicos
Conceitualmente, eu gosto de dizer que o treinamento inclui todos os tipos de etapas sofisticadas para ajustar não apenas os parâmetros "usuais" do modelo, mas também para ajustar (ajustar automaticamente) os hiperparâmetros. Portanto, a otimização de λ orientada a dados é claramente parte do treinamento do modelo.
Como regra geral, você também pode dizer que o treinamento do modelo é tudo o que precisa ser feito antes que você tenha uma função de caixa preta final pronta para usar, capaz de produzir previsões para novos casos.
PS: Acho a terminologia teste versus validação muito confusa, porque no meu campo "validação" significa provar que o modelo final é adequado ao objetivo e, portanto, é o que outras pessoas chamam de teste em vez de validação. Prefiro chamar o conjunto de testes interno de "conjunto de testes de ajuste" e o "conjunto de testes de validação final" externo ou algo semelhante.
Atualizar:
Portanto, se meu modelo (ou seja, meu parâmetro de ajuste neste caso) falhar na validação externa, o que devo fazer?
Normalmente, isso não é nada que simplesmente acontece: existem situações típicas que podem causar essa falha. E todas essas situações que eu conheço são situações de super adaptação. Você precisa estar ciente de que, embora a regularização ajude a reduzir o número necessário de casos de treinamento, a otimização orientada a dados precisa de grandes quantidades de dados.
Minhas recomendações:
Normalmente, você (deveria) já tem expectativas aproximadas, por exemplo, qual desempenho deve ser alcançável, qual desempenho você considera suspeito de boa aparência. Ou especifique qual desempenho você precisa alcançar e um desempenho de linha de base. A partir disso, e o número de casos de treinamento disponíveis (para o esquema de divisão que você decidiu), calcule a incerteza esperada para os testes internos (ajuste). Se essa incerteza indicar que você não seria capaz de obter comparações significativas, não faça a otimização orientada a dados.
Você deve verificar a estabilidade das previsões obtidas com o λ escolhido e o λ ideal encontrado pelo procedimento de autoajuste. Se λ não estiver razoavelmente estável em relação a diferentes divisões dos seus dados, a otimização não funcionou.
Se você achar que não poderá executar a otimização orientada por dados ou que ela não funcionou, você pode escolher o λ pelo seu conhecimento especializado, por exemplo, por experiência com dados semelhantes. Ou pelo conhecimento de que se você descobrir que a otimização falhou, precisará de uma regularização mais forte: o ajuste excessivo que leva à falha funciona em modelos muito complexos.