Em muitas aplicações de processamento de linguagem natural, como correção ortográfica, tradução automática e reconhecimento de fala, usamos modelos de linguagem. Os modelos de linguagem são criados geralmente contando com que frequência as seqüências de palavras (n-gramas) ocorrem em um corpus grande e normalizando as contagens para criar uma probabilidade. Para explicar os n-gramas invisíveis, usamos métodos de suavização (veja vários listados aqui ) que retiram parte da massa de probabilidade dos n-gramas atestados no modelo e distribuem essa massa entre os n-gramas de ordem inferior (sequências mais curtas de palavras) ) probabilidades de retirada.
Muitas das técnicas de suavização tornam-se matematicamente complexas devido à restrição de que os cálculos devem manter a distribuição como uma probabilidade (deve adicionar até 1).
Qual é o motivo dessa restrição? Qual é a vantagem de usar probabilidades estritas para previsão em vez de pontuações de qualquer outro tipo?
PS A referência correspondente ao link é [Stanley F. Chen e Joshua Goodman (1998), "Um estudo empírico de técnicas de suavização para modelagem de linguagem"].