Se a conversão para djvu também estiver ok e se não houver cores envolvidas, tente o seguinte:
Converta os arquivos pdf em jpg usando pdfimages -j
Se você obtiver arquivos pbm, execute a etapa intermediária:
for FILENAME in $(ls *.pbm); do convert $FILENAME ${FILENAME%.*}.jpg ;done
O comando convert é do pacote imagemagick.
Em seguida, use o scantailor para criar tifs com isso.
Em uma última etapa, você vai ao diretório de scantailors (onde estão os tifs ) e aplica o djvubind a esse diretório.
Isso deve reduzir drasticamente o tamanho do arquivo, sem grande perda de qualidade do texto. Se você deseja um controle mais refinado sobre o ocr-back-end, tente djvubind --no-ocr
usar o ocrodjvu para adicionar a camada ocr posteriormente.
Se você tem cores no documento, as coisas ficam um pouco mais complicadas. Em vez de djvubind, você pode usar o didjvu e, no scantailor, é necessário mudar para o modo misto e selecionar, às vezes, imagens coloridas manualmente.