de acordo com o livro de Dan Jurafsky e James H. Martin :
"Acontece, porém, que a frequência simples não é a melhor medida de associação entre as palavras. Um problema é que a frequência bruta é muito distorcida e não muito discriminativa. Se queremos saber que tipos de contexto são compartilhados por damasco e abacaxi mas não por informações e informações digitais, não seremos discriminados por palavras como a, ela ou elas, que ocorrem frequentemente com todo tipo de palavras e não são informativas sobre nenhuma palavra específica ".
às vezes substituímos essa frequência bruta por informações mútuas positivas positivas:
PPMI ( w , c ) = máximo ( log2P( w , c )P( W ) P( C ), 0 )
O PMI, por si só, mostra o quanto é possível observar uma palavra w com uma palavra de contexto C e comparar com observá-las independentemente. No PPMI, mantemos apenas valores positivos do PMI. Vamos pensar quando o PMI é + ou - e por que mantemos apenas negativos:
O que significa PMI positivo?
P( w , c )( P( W ) P( C ) )> 1
P( w , c ) > ( P( W ) P( C ) )
isso acontece quando e ocorrem mutuamente mais do que individualmente, como chute e bola. Gostaríamos de mantê-los!Wc
O que significa PMI negativo?
P( w , c )( P( W ) P( C ) )< 1
P( w , c ) < ( P( W ) P( C ) )
significa que e ou um deles tendem a ocorrer individualmente! Pode indicar estatísticas não confiáveis devido a dados limitados, caso contrário, mostra co-ocorrências não informativas, por exemplo, 'the' e 'ball'. ('the' também ocorre com a maioria das palavras.)Wc
O PMI ou particularmente o PPMI nos ajuda a capturar essas situações com co-ocorrência informativa.