Pelo que vi, a fórmula de suavização Kneser-Ney (de segunda ordem) é, de uma maneira ou de outra, dada como
com o fator de normalização fornecido como
e a probabilidade de continuação de uma palavra
onde é o número de contextos em que w foi visto ou, mais simples, o número de palavras distintas \ bullet que precedem a palavra dada w . Pelo que entendi, a fórmula pode ser aplicada recursivamente.
Agora, isso lida bem com palavras conhecidas em contextos desconhecidos para diferentes comprimentos de n-grama, mas o que não explica é o que fazer quando houver palavras fora do dicionário. Tentei seguir este exemplo, que afirma que, na etapa de recursão para unigramas, . O documento então usa isso - citando Chen e Goodman - para justificar a fórmula acima como .
Mas não vejo como isso funciona na presença de uma palavra desconhecida . Nesses casos, , pois, obviamente, a palavra desconhecida não continua em relação ao conjunto de treinamento. Da mesma forma, a contagem de n gramas será .
Além disso, o termo inteiro pode ser zero se uma sequência de palavras desconhecidas - digamos, um trigrama de palavras OOD - for encontrada.
o que estou perdendo?