Pretendo tokenizar vários textos de descrição de cargo. Eu tentei a tokenização padrão usando espaço em branco como delimitador. No entanto, notei que existem algumas expressões de várias palavras divididas por espaços em branco, que podem causar problemas de precisão no processamento subsequente. Então, eu quero obter todas as colocações mais interessantes / informativas nesses textos.
Existem bons pacotes para fazer tokenização de várias palavras, independentemente da linguagem de programação específica? Por exemplo, "Ele estuda Tecnologia da Informação" ===> "Ele" "estuda" "Tecnologia da Informação".
Notei que o NLTK (Python) tem algumas funcionalidades relacionadas.
Módulo de colocações: http://www.nltk.org/api/nltk.html#module-nltk.collocations
Módulo nltk.tokenize.mwe: http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe
Qual a diferença entre esses dois?
A classe MWETokenizer no módulo nltk.tokenize.mwe parece estar trabalhando em direção ao meu objetivo. No entanto, o MWETokenizer parece exigir que eu use seu método de construção e o método .add_mwe para adicionar expressões com várias palavras. Existe uma maneira de usar o léxico de expressão externa com várias palavras para conseguir isso? Em caso afirmativo, existe algum léxico com várias palavras?
Obrigado!