Quando escolher PCA vs. LSA / LSI

Questão:

Existem diretrizes gerais com relação às características dos dados de entrada que podem ser usadas para decidir entre aplicar o PCA versus o LSA / LSI?

Breve resumo do PCA vs. LSA / LSI:

A Análise de Componentes Principais (PCA) e a Análise Semântica Latente (LSA) ou Indexação Semântica Latente (LSI) são semelhantes no sentido de que todas elas se baseiam fundamentalmente na aplicação da Decomposição de Valor Singular (SVD) a uma matriz.

LSA e LSI são, até onde eu sei, a mesma coisa. O LSA difere do PCA não fundamentalmente, mas em termos de como as entradas da matriz são pré-processadas antes da aplicação do SVD.

No LSA, a etapa de pré-processamento normalmente envolve a normalização de uma matriz de contagem, onde as colunas correspondem a 'documentos' e as linhas correspondem a algum tipo de palavra. As entradas podem ser consideradas como algum tipo de contagem (normalizada) de ocorrência de palavras para documentos.

No PCA, a etapa de pré-processamento envolve o cálculo da matriz de covariância a partir da matriz original. A matriz original é conceitualmente mais de natureza "geral" do que no caso da LSA. No que diz respeito ao PCA, geralmente se diz que as colunas se referem a vetores de amostra genéricos e as linhas se referem a variáveis individuais que estão sendo medidas. A matriz de covariância é por definição quadrada e simétrica e, de fato, não é necessário aplicar o SVD, porque a matriz de covariância pode ser decomposta por diagonalização. Notavelmente, a matriz PCA quase certamente será mais densa que a variante LSA / LSI - as entradas zero ocorrerão apenas quando a covariância entre as variáveis for zero, ou seja, onde as variáveis são independentes.

Finalmente, mais um ponto descritivo que é feito com bastante frequência para distinguir os dois é que

A LSA busca o melhor subespaço linear da norma Frobenius, enquanto a PCA visa o melhor subespaço linear afim.

De qualquer forma, as diferenças e semelhanças dessas técnicas foram debatidas calorosamente em vários fóruns em todo o mundo, e claramente existem algumas diferenças importantes e, claramente, essas duas técnicas produzirão resultados diferentes.

Assim, repito minha pergunta: existem diretrizes gerais com relação às características dos dados de entrada que podem ser usadas para decidir entre aplicar o PCA versus o LSA / LSI? Se eu tiver algo parecido com uma matriz termo-documento, o LSA / LSI sempre será a melhor escolha? Pode-se esperar obter melhores resultados em alguns casos, preparando a matriz termo / doc para LSA / LSI e aplicando o PCA ao resultado, em vez de aplicar o SVD diretamente?

machine-learning pca lsa

— qi5d02lx
fonte

Sua descrição do LSA / LSI se parece muito com a análise de correspondência (CA) e eu suspeito que o acrônimo de mineração de texto LSA significa CA nas estatísticas. CA e PCA estão de fato muito estreitamente relacionados.

— ttnphns

Ei, só queria saber se você já encontrou uma resposta para isso, tenho exatamente a mesma pergunta.

— Pushpendre

O que você está tentando fazer? Isso pode dar uma idéia sobre quais podem ser mais aplicáveis. Você está interessado em encontrar padrões de texto e correlações semânticas ou um espaço latente de menor dimensão em termos de documentos e termos?

— Ui_90jax

Uma diferença que notei foi que o PCA pode fornecer apenas a similaridade termo-termo ou Documento-Documento (dependendo de como você multiplicou a matriz de coreferência ou ), mas o SVD / LSA pode fornecer ambos, uma vez que você tem autovetores de ambos e . Na verdade, não vejo uma razão para usar o PCA sempre sobre SVD. $AA^*$ $A^*A$ $AA^*$ $A^*A$

— Pushpendre
fonte