Estamos procurando uma maneira de tokenizar algum texto da mesma maneira ou semelhante à que um mecanismo de pesquisa faria.
A razão pela qual estamos fazendo isso é para que possamos executar algumas análises estatísticas nos tokens. A linguagem que estamos usando é python, portanto, preferiria uma técnica que funcione nessa linguagem, mas provavelmente poderia configurar algo para usar outra linguagem, se necessário.
Exemplo
Token original:
Temos ótimos burritos!
Mais simplificado: (remova plurais e pontuação)
Temos um ótimo burrito
Ainda mais simplificado: (remova palavras supérfluas)
grande burrito
Melhor: (reconhecer significado positivo e negativo):
burrito -positivo-