Para uma competição recente do Kaggle, eu (manualmente) defini 10 recursos adicionais para o meu conjunto de treinamento, que seriam usados para treinar um classificador de florestas aleatórias. Decidi executar o PCA no conjunto de dados com os novos recursos, para ver como eles se comparavam. Eu descobri que ~ 98% da variação foi realizada pelo primeiro componente (o primeiro vetor próprio). Treinei o classificador várias vezes, adicionando um recurso por vez e usei a validação cruzada e o erro RMS para comparar a qualidade da classificação. Descobri que as classificações melhoravam com cada recurso adicional e que o resultado final (com todos os 10 novos recursos) era muito melhor do que a primeira execução com (digamos) 2 recursos.
Dado que o PCA alegou que ~ 98% da variação estava no primeiro componente do meu conjunto de dados, por que a qualidade das classificações melhorou tanto?
Isso seria válido para outros classificadores? A escala de RF em vários núcleos, portanto, é muito mais rápido treinar do que (digamos) SVM.
E se eu tivesse transformado o conjunto de dados no espaço "PCA" e executado o classificador no espaço transformado. Como meus resultados mudariam?