Recentemente, me deparei com um artigo que propõe o uso de um classificador k-NN em um conjunto de dados específico. Os autores usaram todas as amostras de dados disponíveis para realizar a validação cruzada de dobras k para diferentes valores de k e relatam os resultados da validação cruzada da melhor configuração de hiperparâmetro.
Que eu saiba, esse resultado é tendencioso e eles deveriam ter mantido um conjunto de testes separado para obter uma estimativa de precisão em amostras não usadas para executar a otimização do hiperparâmetro.
Estou certo? Você pode fornecer algumas referências (preferencialmente trabalhos de pesquisa) que descrevam esse uso indevido da validação cruzada?