Uma abordagem tradicional da construção de recursos para mineração de texto é a abordagem por palavras, e pode ser aprimorada usando tf-idf para configurar o vetor de recursos que caracteriza um determinado documento de texto. No momento, estou tentando usar o modelo de linguagem bi-grama ou (N-grama) para criar vetor de recursos, mas não sei exatamente como fazer isso? Podemos apenas seguir a abordagem do saco de palavras, ou seja, calcular a contagem de frequências em termos de bi-grama em vez de palavras e aprimorá-la usando o esquema de ponderação tf-idf?