Qual é a seleção de variável / recurso que você prefere para a classificação binária quando há muito mais variáveis / recurso do que observações no conjunto de aprendizado? O objetivo aqui é discutir qual é o procedimento de seleção de recurso que reduz melhor o erro de classificação.
Podemos corrigir as notações de consistência: para , seja o conjunto de observações de aprendizado do grupo . Então é o tamanho do conjunto de aprendizado. Definimos como o número de recursos (ou seja, a dimensão do espaço do recurso). Deixe denotar a ésima coordenada de .
Por favor, forneça referências completas se você não puder fornecer os detalhes.
EDIT (atualizado continuamente): Procedimentos propostos nas respostas abaixo
- Seleção para frente gananciosa Procedimento de seleção variável para classificação binária
- Eliminação reversa Procedimento de seleção variável para classificação binária
- Metropolis scan / MCMC Procedimento de seleção variável para classificação binária
- regressão logística penalizada Procedimento de seleção variável para classificação binária
Como este é um wiki da comunidade, pode haver mais discussão e atualização
Eu tenho uma observação: em certo sentido, todos vocês dão um procedimento que permite a ordenação de variáveis, mas não a seleção de variáveis (você é bastante evasivo sobre como selecionar o número de recursos, acho que todos usam validação cruzada?) as respostas nessa direção? (como este é um wiki da comunidade, você não precisa ser o responsável pela resposta para adicionar informações sobre como selecionar o número de variáveis? Abri uma pergunta nessa direção aqui Validação cruzada em dimensão muito alta (para selecionar o número de variáveis variáveis usadas em classificação dimensional muito alta) )