Eu estava na casa dos meus avós no fim de semana passado. Minha avó pegou esse livro gigante (~ 1400 páginas) da história de sua família que remonta a 1630, aproximadamente. Nerd gigante que sou, pensei que seria bom ter todas as informações armazenadas em um banco de dados e disponíveis na web. Eu posso lidar com toda a programação da Web e expressões regulares e o que não, mas o que eu não sei é a melhor maneira de obter o texto do livro para o computador.
Eu sei que algum tipo de OCR será necessário, pelas poucas pesquisas que fiz, parece que minhas opções são:
- tire uma foto de cada página com uma câmera e processe as fotos com o software OCR
- use um scanner para digitalizar cada página e processe com o software OCR
- use algum tipo de dispositivo portátil, como este .
Alguém tem alguma idéia sobre a melhor maneira de resolver esse problema? Não quero destruir o livro, porque, tanto quanto sei, não pode ser substituído. Esta é provavelmente a única vez que digitalizarei um livro grande, então não acho que queira gastar mais de US $ 250 em qualquer tipo de dispositivo. Não me importo com algum esforço manual aqui (sei que isso provavelmente levará meses), mas gostaria de encontrar o método mais eficiente possível.
Nota sobre o livro: ele tem apenas 20 anos e está em muito boa forma. É monocromático e as páginas não começaram a amarelar. Já que é tão grande, eu me preocupo com possíveis sombras quando o texto fica perto da encadernação.