Quantas dimensões a serem reduzidas ao executar o PCA?


12

Como escolher K para PCA? K é o número de dimensões a serem projetadas. O único requisito é não perder muita informação. Entendo que depende dos dados, mas estou procurando mais uma visão geral simples sobre quais características considerar ao escolher K.


Depende da perda de dados tolerável e também da declaração do problema!
Dawny33

Eu concordo com as duas respostas abaixo. No entanto, você sabe que existe uma maneira simples de quantificar a perda de informações, ou seja, usando a diagonal de SVD da matriz de covariância?
Yuqian

Respostas:


13

Após executar o algoritmo PCA, você obtém os principais componentes, classificados pela quantidade de informações que eles mantêm. Se você mantiver todo o conjunto, não há informações perdidas. Removendo-os um por um e projetando-os de volta no espaço original, é possível calcular a perda de informações. Você pode plotar essa perda de informações em relação ao número de componentes principais removidos e ver se faz um 'cotovelo' onde faz sentido. Muito disso depende do seu caso de uso.


(+1) Sim, por mais simples que seja :) :)
Dawny33

3

Normalmente, verifico a porcentagem das informações mantidas pelo valor K. Digamos que de 8 campos, 2 deles possuem 90% da informação. Então não faz sentido incluir os outros 6 ou 5 campos. Se você conhece dados mnist, das 768 entradas, usei apenas 250, o que aumentou minha precisão de 83 para 96%. O fato é que mais dimensionalidade traz mais problemas. Então, corte-os. Normalmente, uso apenas K, que detém apenas 90% da informação, e funciona para mim.


Olá. Tenho um problema semelhante em que gostaria de usar x% de informações e não tenho certeza de como fazer isso? Pretendo usar o IPCA para fazer isso. Posso deixar n_components = None, mas como faço para decidir quais são os recursos que possuem x% dos dados?
Arsenal Fanatic
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.