Estou trabalhando em um aplicativo que requer a criação de um banco de dados muito grande de n-gramas que existem em um corpus de texto grande.
Preciso de três tipos de operação eficientes: pesquisa e inserção indexadas pelo próprio n-grama e consulta de todos os n-gramas que contêm um sub-n-grama.
Parece-me que o banco de dados deve ser uma árvore de documentos gigantesca, e os bancos de dados de documentos, como o Mongo, devem ser capazes de fazer o trabalho bem, mas nunca os usei em escala.
Conhecendo o formato da pergunta Stack Exchange, gostaria de esclarecer que não estou pedindo sugestões sobre tecnologias específicas, mas um tipo de banco de dados que eu deveria estar procurando para implementar algo assim em escala.