Eu imploro para diferir nesta questão com a opinião de @ AmiTavory, bem como com os Elementos de aprendizagem estatística.
Vindo de um campo aplicado com tamanhos de amostra muito baixos, tenho a experiência de que também as etapas não supervisionadas de pré-processamento podem introduzir um viés grave.
No meu campo, esse seria o PCA mais freqüentemente para redução de dimensionalidade antes que um classificador seja treinado. Embora eu não possa mostrar os dados aqui, vi PCA + (LDA validado cruzado) vs. validado cruzado (PCA + LDA) subestimando a taxa de erro em aproximadamente uma ordem de magnitude . (Isso geralmente é um indicador de que o PCA não é estável.)
Quanto à argumentação de "vantagem injusta" dos Elementos, se for examinada a variação dos casos de teste + taining, terminamos com recursos que funcionam bem com os casos de treinamento e teste. Assim, criamos aqui uma profecia auto-realizável que é a causa do viés super-otimista. Esse viés é baixo se você tiver tamanhos de amostra razoavelmente confortáveis.
Portanto, recomendo uma abordagem um pouco mais conservadora do que os elementos:
- cálculos de pré-processamento que consideram mais de um caso precisam ser incluídos na validação: ou seja, são calculados apenas no respectivo conjunto de treinamento (e depois aplicados aos dados de teste)
- As etapas de pré-processamento que consideram cada caso por conta própria (eu sou espectroscopista: exemplos seriam correção de linha de base e normalização de intensidade, que é uma normalização em linha) podem ser retiradas da validação cruzada desde que estejam antes do primeiro passo que calcula para vários casos.
Dito isto, a valiação cruzada também é apenas um atalho para realizar um estudo de validação adequado. Assim, você pode argumentar com praticidade:
Você pode verificar se o pré-processamento em questão produz resultados estáveis (você pode fazer isso, por exemplo, por validação cruzada). Se você achar que já está perfeitamente estável com tamanhos de amostra mais baixos, IMHO, você pode argumentar que não haverá muito viés ao retirá-lo da validação cruzada.
No entanto, para citar um supervisor anterior: Tempo de cálculo não é argumento científico.
Costumo fazer uma "pré-visualização" de algumas dobras e poucas iterações para a validação cruzada, para garantir que todo o código (incluindo o resumo / gráficos dos resultados) e o deixo durante a noite ou no final de semana no servidor por um período validação cruzada mais refinada.