Eu me deparei com um cenário em que tenho 10 sinais / pessoa para 10 pessoas (então 100 amostras) contendo 14000 pontos de dados (dimensões) que preciso passar para um classificador. Gostaria de reduzir a dimensionalidade desses dados e o PCA parece ser o caminho para fazê-lo. No entanto, só consegui encontrar exemplos de PCA em que o número de amostras é maior que o número de dimensões. Estou usando um aplicativo PCA que localiza os PCs usando SVD. Quando passo o meu conjunto de dados 100x14000, 101 PCs são retornados, portanto a grande maioria das dimensões é obviamente ignorada. O programa indica que os 6 primeiros PCs contêm 90% da variação.
É uma suposição razoável que esses 101 PCs contenham essencialmente toda a variação e as dimensões restantes sejam negligenciáveis?
Um dos artigos que li afirma que, usando um conjunto de dados semelhante (embora de qualidade um pouco menor) que o meu, eles foram capazes de reduzir 4500 dimensões para 80, mantendo 96% da informação original. As ondas de papel sobre os detalhes da técnica de PCA usada, apenas 3100 amostras estavam disponíveis, e eu tenho razões para acreditar em menos amostras do que as usadas para realmente executar a PCA (para remover o viés da fase de classificação).
Estou faltando alguma coisa ou é realmente assim que o PCA é usado com um conjunto de dados de alta dimensionalidade e tamanho de amostra baixo? Qualquer comentário seria muito apreciado.