Estou usando o caret
pacote no R
treinamento de classificadores binários SVM. Para redução de recursos, estou pré-processando com o PCA usando o recurso incorporado preProc=c("pca")
ao chamar train()
. Aqui estão as minhas perguntas:
- Como o sinal de intercalação seleciona os principais componentes?
- Existe um número fixo de componentes principais que está selecionado?
- Os principais componentes são selecionados por alguma variação explicada (por exemplo, 80%)?
- Como posso definir o número de componentes principais usados para classificação?
- (Entendo que o PCA deve fazer parte da validação cruzada externa para permitir estimativas confiáveis de previsão.) O PCA também deve ser implementado no ciclo de validação cruzada interna (estimativa de parâmetros)?
- Como o sinal de intercalação implementa o PCA na validação cruzada?
Informações úteis podem ser encontrados neste pós em APC e k vezes de validação cruzada no pacote de acento circunflexo em R .
—
Ekaba Bisong