Minha pergunta é sobre validação cruzada quando há muito mais variáveis que observações. Para fixar idéias, proponho restringir a estrutura de classificação em uma dimensão muito alta (mais recursos do que observação).
Problema: Suponha que, para cada variável , você tenha uma medida de importância T [ i ] do que mensure exatamente o interesse do recurso i pelo problema de classificação. O problema de selecionar um subconjunto de recursos para reduzir de maneira ideal o erro de classificação é então reduzido ao de encontrar o número de recursos.
Pergunta: Qual é a maneira mais eficiente de executar a validação cruzada neste caso (esquema de validação cruzada)? Minha pergunta não é sobre como escrever o código, mas sobre a versão da validação cruzada a ser usada ao tentar encontrar o número do recurso selecionado (para minimizar o erro de classificação), mas como lidar com a alta dimensão ao realizar a validação cruzada (daí a problema acima pode ser um pouco como um 'problema de brinquedo' para discutir CV em alta dimensão).
Notações: é o tamanho do conjunto de aprendizado, p o número de recursos (isto é, a dimensão do espaço do recurso). Por muito alta dimensão média eu p >> n (por exemplo p = 10000 e n = 100 ).