A redução de dimensionalidade nem sempre perde informações. Em alguns casos, é possível re-representar os dados em espaços de menor dimensão sem descartar nenhuma informação.
Suponha que você tenha alguns dados em que cada valor medido esteja associado a duas covariáveis ordenadas. Por exemplo, suponha que você tenha medido a qualidade do sinal (indicado pela cor branco = bom, preto = ruim) em uma grade densa de posições e em relação a algum emissor. Nesse caso, seus dados podem se parecer com o gráfico à esquerda [* 1]:Qxy
É, pelo menos superficialmente, um dado bidimensional: . No entanto, podemos conhecer a priori (com base na física subjacente) ou assumir que depende apenas da distância da origem: r = . (Algumas análises exploratórias também podem levar você a essa conclusão, mesmo que o fenômeno subjacente não seja bem compreendido). Em seguida, poderíamos reescrever nossos dados como vez de , o que reduziria efetivamente a dimensionalidade para uma única dimensão. Obviamente, isso não terá perdas se os dados forem radialmente simétricos, mas isso é uma suposição razoável para muitos fenômenos físicos.Q(x,y)x2+y2−−−−−−√Q(r)Q(x,y)
Essa transformação não é linear (há uma raiz quadrada e dois quadrados!), Portanto é um pouco diferente do tipo de redução de dimensionalidade realizada pelo PCA, mas acho que é uma boa exemplo de como às vezes você pode remover uma dimensão sem perder nenhuma informação.Q(x,y)→Q(r)
Para outro exemplo, suponha que você execute uma decomposição de valor singular em alguns dados (SVD é um primo próximo da análise de componentes principais) e, muitas vezes, a base subjacente da análise de componentes principais. O SVD pega sua matriz de dados e a divide em três matrizes, tais como . As colunas de U e V são os vectores singulares esquerdo e direito, respectivamente, que formam um conjunto de bases ortonormais para . Os elementos diagonais de (ou seja, são valores singulares, que são efetivamente pesos na ésima base formada pelas colunas correspondentes de e (o restante deM = U S V T M S S i , i ) i U V S N x N N x N S U V M Q ( x , y )MM=USVTMSSi,i)iUVSé zeros). Por si só, isso não fornece nenhuma redução de dimensionalidade (na verdade, agora existem 3 matrizes vez da matriz única com a você começou). No entanto, algumas vezes alguns elementos diagonais de são zero. Isso significa que as bases correspondentes em e não são necessárias para reconstruir e, portanto, podem ser descartadas. Por exemplo, suponha queNxNNxNSUVMQ(x,y)A matriz acima contém 10.000 elementos (ou seja, é 100x100). Quando executamos um SVD nele, descobrimos que apenas um par de vetores singulares tem um valor diferente de zero [* 2], para que possamos representar novamente a matriz original como o produto de dois vetores de 100 elementos (200 coeficientes, mas você pode realmente melhorar um pouco [* 3]).
Para algumas aplicações, sabemos (ou pelo menos assumimos) que as informações úteis são capturadas pelos componentes principais com altos valores singulares (SVD) ou carregamentos (PCA). Nesses casos, podemos descartar os vetores / bases / componentes principais singulares com cargas menores, mesmo que sejam diferentes de zero, na teoria de que eles contêm ruído irritante em vez de um sinal útil. Ocasionalmente, tenho visto pessoas rejeitarem componentes específicos com base em sua forma (por exemplo, se assemelha a uma fonte conhecida de ruído aditivo), independentemente da carga. Não tenho certeza se você consideraria isso uma perda de informações ou não.
Existem alguns resultados interessantes sobre a otimização teórica da informação do PCA. Se o seu sinal for gaussiano e corrompido com ruído gaussiano aditivo, o PCA poderá maximizar as informações mútuas entre o sinal e sua versão com redução de dimensionalidade (assumindo que o ruído tenha uma estrutura de covariância semelhante à identidade).
Notas de rodapé:
- Este é um modelo brega e totalmente não-físico. Desculpa!
- Devido à imprecisão do ponto flutuante, alguns desses valores não serão exatamente zero.
- Em uma inspeção mais aprofundada, neste caso específico , os dois vetores singulares são os mesmos E simétricos em relação ao seu centro, de modo que poderíamos realmente representar a matriz inteira com apenas 50 coeficientes. Observe que o primeiro passo sai do processo SVD automaticamente; o segundo requer alguma inspeção / um salto de fé. (Se você quiser pensar sobre isso em termos de pontuações PCA, a matriz de pontuações é apenas da decomposição SVD original; argumentos semelhantes sobre zeros que não contribuem de todo) se aplicam).US