Eu tenho um grande arquivo classificado com bilhões de linhas de comprimentos variáveis. Dada uma nova linha, eu gostaria de saber qual número de bytes obteria se tivesse sido incluído no arquivo classificado.
Exemplo
a\n
c\n
d\n
f\n
g\n
Dada a entrada 'foo', eu obteria a saída 9.
Isso é fácil, basta percorrer todo o arquivo, mas, sendo bilhões de linhas de tamanhos variáveis, seria mais rápido fazer uma pesquisa binária.
Essa ferramenta de processamento de texto já existe?
Editar:
Faz agora: https://gitlab.com/ole.tange/tangetools/blob/master/bsearch/bsearch