A letra N-gramas é usada em vez de palavras por vários motivos:
1) A lista de palavras necessárias para um determinado idioma é bastante grande, talvez 100.000, se você considerar rápido, mais rápido, mais rápido, mais rápido, mais rápido, mais rápido, mais rápido ... como todas as palavras diferentes. Para 80 idiomas, você precisa de cerca de 80x mais palavras, ocupando muito espaço - mais de 50 megabytes.
2) O número de trigramas de letras para um alfabeto de 26 letras é 26 ** 3 ou cerca de 17.000 e, para quadrogramas (N = 4), cerca de 450.000 cobrindo TODOS os idiomas usando esse alfabeto. Números semelhantes, mas um pouco maiores, para N-gramas em alfabetos maiores de 30 a 100 caracteres. Para os idiomas CJK com mais de 4000 letras no script Han, os unigramas (N = 1) são suficientes. Para alguns scripts Unicode, há apenas um idioma por script (grego, armênio), portanto, nenhuma combinação de letras é necessária (os chamados nil-gramas N = 0)
3) Com palavras, você não tem nenhuma informação quando uma palavra que não está no dicionário, enquanto que com a letra N-gramas você costuma ter pelo menos algumas combinações úteis de letras nessa palavra.
O CLD2 usa quadgrams para a maioria dos scripts Unicode (alfabetos), incluindo unigramas em latim, cirílico e árabe, para os scripts CJK, nilgramas para outros scripts e também inclui um número limitado de palavras e pares de palavras completas bastante distintas e bastante comuns para distinguir em grupos difíceis de idiomas estatisticamente semelhantes, como indonésio e malaio. Os bigrams e trigramas de letras talvez sejam úteis para distinguir entre um pequeno número de idiomas (cerca de oito, consulte https://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit), mas são inúteis para distinguir dezenas de idiomas. Assim, o CLD2 usa quadramas, associando a cada combinação de letras os três principais idiomas mais prováveis usando essa combinação. Isso permite cobrir 80 idiomas com cerca de 1,5 MB de tabelas e 160 idiomas com mais detalhes, com cerca de 5 MB de tabelas.