Questão:
Existem diretrizes gerais com relação às características dos dados de entrada que podem ser usadas para decidir entre aplicar o PCA versus o LSA / LSI?
Breve resumo do PCA vs. LSA / LSI:
A Análise de Componentes Principais (PCA) e a Análise Semântica Latente (LSA) ou Indexação Semântica Latente (LSI) são semelhantes no sentido de que todas elas se baseiam fundamentalmente na aplicação da Decomposição de Valor Singular (SVD) a uma matriz.
LSA e LSI são, até onde eu sei, a mesma coisa. O LSA difere do PCA não fundamentalmente, mas em termos de como as entradas da matriz são pré-processadas antes da aplicação do SVD.
No LSA, a etapa de pré-processamento normalmente envolve a normalização de uma matriz de contagem, onde as colunas correspondem a 'documentos' e as linhas correspondem a algum tipo de palavra. As entradas podem ser consideradas como algum tipo de contagem (normalizada) de ocorrência de palavras para documentos.
No PCA, a etapa de pré-processamento envolve o cálculo da matriz de covariância a partir da matriz original. A matriz original é conceitualmente mais de natureza "geral" do que no caso da LSA. No que diz respeito ao PCA, geralmente se diz que as colunas se referem a vetores de amostra genéricos e as linhas se referem a variáveis individuais que estão sendo medidas. A matriz de covariância é por definição quadrada e simétrica e, de fato, não é necessário aplicar o SVD, porque a matriz de covariância pode ser decomposta por diagonalização. Notavelmente, a matriz PCA quase certamente será mais densa que a variante LSA / LSI - as entradas zero ocorrerão apenas quando a covariância entre as variáveis for zero, ou seja, onde as variáveis são independentes.
Finalmente, mais um ponto descritivo que é feito com bastante frequência para distinguir os dois é que
A LSA busca o melhor subespaço linear da norma Frobenius, enquanto a PCA visa o melhor subespaço linear afim.
De qualquer forma, as diferenças e semelhanças dessas técnicas foram debatidas calorosamente em vários fóruns em todo o mundo, e claramente existem algumas diferenças importantes e, claramente, essas duas técnicas produzirão resultados diferentes.
Assim, repito minha pergunta: existem diretrizes gerais com relação às características dos dados de entrada que podem ser usadas para decidir entre aplicar o PCA versus o LSA / LSI? Se eu tiver algo parecido com uma matriz termo-documento, o LSA / LSI sempre será a melhor escolha? Pode-se esperar obter melhores resultados em alguns casos, preparando a matriz termo / doc para LSA / LSI e aplicando o PCA ao resultado, em vez de aplicar o SVD diretamente?