Quais são os prós e os contras da aplicação de informações mútuas pontuais em uma matriz de co-ocorrência de palavras antes do SVD?

Uma maneira de gerar incorporação de palavras é a seguinte ( espelho ):

Obtenha um corpora, por exemplo: "Gosto de voar. Gosto de PNL. Gosto de aprendizado profundo".
Crie a palavra matriz de coocorrência a partir dela:

Execute o SVD no $X$ e mantenha as primeiras $k$ colunas de U.

$U_{1:|V|,1:k}$

Entre as etapas 2 e 3, às vezes são aplicadas informações mútuas pontuais (por exemplo, A. Herbelot e EM Vecchi. 2015. Construindo um mundo compartilhado: mapeando a distribuição para os espaços semânticos teóricos do modelo . Lisboa, Portugal .).

Quais são os prós e os contras da aplicação de informações mútuas pontuais em uma matriz de co-ocorrência de palavras antes do SVD?

— Franck Dernoncourt
fonte

de acordo com o livro de Dan Jurafsky e James H. Martin :

"Acontece, porém, que a frequência simples não é a melhor medida de associação entre as palavras. Um problema é que a frequência bruta é muito distorcida e não muito discriminativa. Se queremos saber que tipos de contexto são compartilhados por damasco e abacaxi mas não por informações e informações digitais, não seremos discriminados por palavras como a, ela ou elas, que ocorrem frequentemente com todo tipo de palavras e não são informativas sobre nenhuma palavra específica ".

às vezes substituímos essa frequência bruta por informações mútuas positivas positivas:

PPMI (W, c) = max ({registro}_{2} \frac{P (W, c)}{P (W) P (c)}, 0 0)

$\text{PPMI}(w,c) = \max{\left(\log_{2}{\frac{P(w,c)}{P(w)P(c)}},0\right)}$

O PMI, por si só, mostra o quanto é possível observar uma palavra w com uma palavra de contexto C e comparar com observá-las independentemente. No PPMI, mantemos apenas valores positivos do PMI. Vamos pensar quando o PMI é + ou - e por que mantemos apenas negativos:

O que significa PMI positivo?

$\frac{P(w,c)}{(P(w)P(c))} > 1$
$P(w,c) > (P(w)P(c))$
isso acontece quando e ocorrem mutuamente mais do que individualmente, como chute e bola. Gostaríamos de mantê-los! $w$ $c$

O que significa PMI negativo?

$\frac{P(w,c)}{(P(w)P(c))} < 1$
$P(w,c) < (P(w)P(c))$
significa que e ou um deles tendem a ocorrer individualmente! Pode indicar estatísticas não confiáveis devido a dados limitados, caso contrário, mostra co-ocorrências não informativas, por exemplo, 'the' e 'ball'. ('the' também ocorre com a maioria das palavras.) $w$ $c$

O PMI ou particularmente o PPMI nos ajuda a capturar essas situações com co-ocorrência informativa.

— Maryam Hnr
fonte