Os dados de normalização (com média zero e desvio padrão da unidade) antes de executar uma validação cruzada repetida em dobra k tem conquistas negativas, como ajuste excessivo?
Nota: isto é para uma situação em que #cases> total #features
Estou transformando alguns dos meus dados usando uma transformação de log e normalizando todos os dados como acima. Estou então realizando a seleção de recursos. Em seguida, aplico os recursos selecionados e os dados normalizados a uma validação cruzada repetida em 10 vezes para tentar estimar o desempenho generalizado do classificador e estou preocupado que o uso de todos os dados para normalizar possa não ser apropriado. Devo normalizar os dados de teste de cada dobra usando dados de normalização obtidos dos dados de treinamento para essa dobra?
Quaisquer opiniões recebidas com gratidão! Desculpas se esta pergunta parece óbvia.
Edit: Ao testar isso (de acordo com as sugestões abaixo), descobri que a normalização anterior ao CV não fazia muita diferença em termos de desempenho quando comparada à normalização no CV.