Eu não vi a palestra, então não posso comentar sobre o que foi dito.
Meus US $ 0,02: se você deseja obter boas estimativas de desempenho usando a reamostragem, realmente deve executar todas as operações durante a reamostragem em vez de antes. Isso é realmente verdade tanto na seleção de recursos [1] quanto nas operações não triviais como o PCA. Se adicionar incerteza aos resultados, inclua-a na reamostragem.
Pense na regressão de componentes principais: PCA seguido de regressão linear em alguns dos componentes. O PCA estima parâmetros (com ruído) e o número de componentes também deve ser escolhido (valores diferentes resultarão em resultados diferentes => mais ruído).
Digamos que usamos CV de 10 vezes com o esquema 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
ou esquema 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
Deve ficar claro que a segunda abordagem deve produzir estimativas de erro que refletem a incerteza causada pelo PCA, seleção do número de componentes e regressão linear. De fato, o currículo no primeiro esquema não faz ideia do que o precedeu.
Sou culpado de nem sempre fazer todas as operações com reamostragem, mas apenas quando realmente não me importo com estimativas de desempenho (o que é incomum).
Existe muita diferença entre os dois esquemas? Depende dos dados e do pré-processamento. Se você está apenas centralizando e dimensionando, provavelmente não. Se você tem uma tonelada de dados, provavelmente não. À medida que o tamanho do conjunto de treinamento diminui, o risco de obter estimativas ruins aumenta, especialmente se n estiver próximo de p.
Posso afirmar com certeza pela experiência que não incluir a seleção supervisionada de recursos na reamostragem é uma péssima ideia (sem grandes conjuntos de treinamento). Não vejo por que o pré-processamento seria imune a isso (até certo ponto).
@mchangun: Eu acho que o número de componentes é um parâmetro de ajuste e você provavelmente deseja selecioná-lo usando estimativas de desempenho que são generalizáveis. Você pode escolher K automaticamente, de modo que pelo menos X% da variação seja explicada e inclua esse processo na reamostragem, para que contabilizemos o ruído nesse processo.
Máx.
[1] Ambroise, C., & McLachlan, G. (2002). Viés de seleção na extração de genes com base em dados de expressão de genes de microarrays. Anais da Academia Nacional de Ciências, 99 (10), 6562-6566.