Uso indevido de validação cruzada (relatório de desempenho para o melhor valor de hiperparâmetro)

Recentemente, me deparei com um artigo que propõe o uso de um classificador k-NN em um conjunto de dados específico. Os autores usaram todas as amostras de dados disponíveis para realizar a validação cruzada de dobras k para diferentes valores de k e relatam os resultados da validação cruzada da melhor configuração de hiperparâmetro.

Que eu saiba, esse resultado é tendencioso e eles deveriam ter mantido um conjunto de testes separado para obter uma estimativa de precisão em amostras não usadas para executar a otimização do hiperparâmetro.

Estou certo? Você pode fornecer algumas referências (preferencialmente trabalhos de pesquisa) que descrevam esse uso indevido da validação cruzada?

— Daniel López
fonte

Observe que, em vez de um conjunto de testes separado, é possível usar a chamada validação cruzada aninhada . Se você pesquisar esse termo neste site, encontrará muitas discussões. Procure, em particular, as respostas de @DikranMarsupial, um dos autores do segundo artigo citado na resposta aceita.

— Ameba diz Reinstate Monica

Sim, há problemas ao relatar apenas resultados de CV com dobra em k. Você poderia usar, por exemplo, as três publicações a seguir para seu objetivo (embora haja mais por aí, é claro) para apontar as pessoas na direção certa:

Eu pessoalmente gosto disso porque eles tentam explicar as questões mais em inglês simples do que em matemática.

— geekoverdose
fonte

Mais precisamente, o problema não está relatando resultados de validação cruzada, mas relatando estimativas de desempenho que fizeram parte do processo de seleção / otimização.

— cbeleites suportes Monica

Observe também que o artigo Bengio & Grandvalet é um pouco menos relevante se o problema aqui for o desempenho de um modelo específico treinado em um conjunto de dados específico - eles discutem o desempenho do mesmo algoritmo de treinamento aplicado a novos conjuntos de dados da mesma população (que precisa incluir variação entre diferentes conjuntos de dados do mesmo tamanho amostrados da mesma fonte - o que não é um problema se estivermos falando sobre o desempenho de previsão de um modelo treinado em um conjunto de dados específico).

— Cbeleites suporta Monica

@cbeleites Detectado corretamente: no meu primeiro rascunho da resposta, escolhi acidentalmente a terceira referência em vez da segunda, mas depois não quis mais remover nenhuma informação da resposta já aceita - e foi por isso que adicionei a segunda em entre (ver versões da resposta). No entanto, acho que a questão foi principalmente em torno do erro relatado, e esses documentos apontam algumas das coisas que alguém pode fazer de errado com o CV nesse sentido muito bem, IMHO.

— Geekoverdose