A idéia básica ao usar o PCA como uma ferramenta para a seleção de recursos é selecionar variáveis de acordo com a magnitude (do maior para o menor em valores absolutos) de seus coeficientes ( cargas ). Você deve se lembrar que o PCA procura substituir variáveis (mais ou menos correlacionadas) por combinações lineares não correlacionadas (projeções) das variáveis originais. Vamos ignorar como escolher um ideal para o problema em questão. Esses componentes principais são classificados por importância por meio da variação explicada e cada variável contribui com graus variados para cada componente. Usar os maiores critérios de variação seria semelhante à extração de recursosk < p k k j < p j p jpk < pkk , em que o componente principal é usado como novos recursos, em vez das variáveis originais. No entanto, podemos decidir manter apenas o primeiro componente e selecionar as variáveis que possuem o maior coeficiente absoluto; o número pode ser baseado na proporção do número de variáveis (por exemplo, mantenha apenas os 10% superiores das variáveis ) ou em um ponto de corte fixo (por exemplo, considerando um limite nos coeficientes normalizados). Essa abordagem tem alguma semelhança com o operador Lasso na regressão penalizada (ou regressão PLS ). Porém, nem o valor de nem o número de componentes a serem retidos são escolhas óbvias.j < pjpj
O problema com o uso de PCA é que (1) medições de todas as variáveis originais são usadas na projeção para o espaço dimensional inferior, (2) apenas relações lineares são consideradas e (3) métodos baseados em PCA ou SVD, também como métodos de triagem univariados (teste t, correlação etc.), não levam em consideração a natureza multivariada potencial da estrutura de dados (por exemplo, interação de ordem superior entre variáveis).
Sobre o ponto 1, alguns métodos de triagem mais elaborados foram propostos, por exemplo , análise de características principais ou método passo a passo, como o usado para " raspar genes " nos estudos de expressão gênica. Além disso, o PCA esparso pode ser usado para executar a redução de dimensão e a seleção de variáveis com base nas cargas variáveis resultantes. Sobre o ponto 2, é possível usar o PCA do kernel (usando o truque do kernel ) se for necessário incorporar relacionamentos não lineares em um espaço dimensional inferior. As árvores de decisão , ou melhor, o algoritmo de floresta aleatória , provavelmente são mais capazes de resolver o ponto 3. O último permite derivar medidas baseadas em Gini ou permutação de importância variável .
Um último ponto: se você pretende executar a seleção de características antes de aplicar um modelo de classificação ou regressão, certifique-se de validar cruzadamente todo o processo (consulte o §7.10.2 dos Elementos de aprendizagem estatística , ou Ambroise e McLachlan, 2002 ).
Como você parece estar interessado na solução R, eu recomendaria dar uma olhada no pacote de intercalação , que inclui várias funções úteis para pré-processamento de dados e seleção de variáveis em um contexto de classificação ou regressão.