Lematização vs Stemming


Respostas:


10

Eu diria que a lematização é geralmente a maneira preferida de reduzir palavras relacionadas a uma base comum.

Esta pergunta do Quora é um bom recurso sobre o assunto: é aconselhável escolher a lematização em vez da resultante da PNL? A resposta principal cita outro bom recurso que motiva por que a lematização geralmente é melhor, Stemming and lematization , da Stanford NLP:

Por que a lematização é melhor

O stemming geralmente se refere a um processo heurístico bruto que corta o final das palavras na esperança de atingir esse objetivo corretamente na maioria das vezes, e geralmente inclui a remoção de afixos derivativos.

A lematização geralmente se refere a fazer as coisas corretamente com o uso de uma análise de vocabulário e morfologia das palavras, normalmente com o objetivo de remover apenas terminações flexionadas e retornar a forma básica ou de dicionário de uma palavra, conhecida como lema.

Mas isso geralmente é, nem sempre é melhor. O tronco ainda possui algumas vantagens e dependerá do caso de uso. Alguns motivos pelos quais você usaria a lematização poderiam ser:

Algumas possíveis exceções quando derivadas podem ser melhores

  • Simplicidade
  • Rapidez
  • Restrições de memória

4
Outro caso em que eu pessoalmente achei que resultou (às vezes) funciona melhor: trechos de texto muito curtos, como nomes de empresas, que geralmente não obedecem totalmente às regras gramaticais; algoritmos de stemming agressivos como o Snowball tendem a funcionar tão bem quanto não são melhores na minha experiência.
shadowtalker

Obrigado por adicionar! Vou editar para deixar mais claro que pode haver mais situações em que o stemming pode funcionar melhor.
Simon Larsson

4
Eu não posso enfatizar o suficiente na velocidade! Eu tinha um aplicativo que demorou uma eternidade para ser executado porque estávamos executando a lematização. Substituí-lo por derivar coisas aceleradas.
ChiPlusPlus
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.