Solução prática de OCR para converter um livro grande em um formato digital?


12

Eu estava na casa dos meus avós no fim de semana passado. Minha avó pegou esse livro gigante (~ 1400 páginas) da história de sua família que remonta a 1630, aproximadamente. Nerd gigante que sou, pensei que seria bom ter todas as informações armazenadas em um banco de dados e disponíveis na web. Eu posso lidar com toda a programação da Web e expressões regulares e o que não, mas o que eu não sei é a melhor maneira de obter o texto do livro para o computador.

Eu sei que algum tipo de OCR será necessário, pelas poucas pesquisas que fiz, parece que minhas opções são:

  1. tire uma foto de cada página com uma câmera e processe as fotos com o software OCR
  2. use um scanner para digitalizar cada página e processe com o software OCR
  3. use algum tipo de dispositivo portátil, como este .

Alguém tem alguma idéia sobre a melhor maneira de resolver esse problema? Não quero destruir o livro, porque, tanto quanto sei, não pode ser substituído. Esta é provavelmente a única vez que digitalizarei um livro grande, então não acho que queira gastar mais de US $ 250 em qualquer tipo de dispositivo. Não me importo com algum esforço manual aqui (sei que isso provavelmente levará meses), mas gostaria de encontrar o método mais eficiente possível.

Nota sobre o livro: ele tem apenas 20 anos e está em muito boa forma. É monocromático e as páginas não começaram a amarelar. Já que é tão grande, eu me preocupo com possíveis sombras quando o texto fica perto da encadernação.

ocr 

1
Em uma nota lateral, se o livro tiver apenas 20 anos e as informações voltarem aos anos 1600, onde está o material original? Isso pode ser bom de capturar também!
Craig

Sim, isso seria legal também. Vou ver se consigo rastrear o autor original.

Respostas:


8

Me deparei com isso no Lifehacker há algum tempo, e esse tem sido um dos meus principais projetos de bricolage desde então.

insira a descrição da imagem aqui

Substitua o iPhone por qualquer câmera ou imagem e você terá uma pilha de excelentes JPEGs de alta resolução prontos para OCR com qualquer software, mesmo (urgência!) MS Office ...;)

Barato. Eficaz. FAÇA VOCÊ MESMO. Você não pode superar uma ideia como essa.

EDIT: Os comentários levantaram alguns pontos sobre sombras, enrolamentos de páginas, etc. É muito fácil de resolver para qualquer pessoa que tenha literalmente copiado os textos da biblioteca.

Adicione várias fontes de luz para iluminar o livro e elimine as sombras.

incline o livro a 90 graus para que as páginas não se enrolem em direção às encadernações no meio. Também preserva a ligação.

Vou ver se posso dar um exemplo e montar um.

EDIT 2: amostra carregada de como você deve segurar o livro e também observe a fonte de luz da esquerda.

insira a descrição da imagem aqui


Isso é tão legal! Gostaria de poder fazer isso :)
alex

No entanto, você precisa de uma câmera real para fazer isso e de boa qualidade, ou você terminará com uma imagem que não poderá explorar, especialmente em um livro muito antigo. Portanto, está longe de ser barato.
Gnoupi

Muito interessante. Eu me pergunto como isso funcionaria com um livro, considerando as sombras que provavelmente haveriam entre as páginas.

Se as páginas estiverem dobradas ou sombreadas, você terá problemas para que o software OCR reconheça as letras.
Alex

adicione várias fontes de luz para iluminar o livro e elimine as sombras. incline o livro a 90 graus para que as páginas não se enrolem em direção às encadernações no meio. É simples senso comum, fazemos isso o tempo todo na faculdade tirando fotos de textos da biblioteca.
caliban

3

Pelo que sei, a ABBYY faz o melhor software de OCR, mas não é gratuito. Você deve tentar usar uma versão de avaliação do ABBYY FineReader , talvez isso o ajude.


1

Você precisará capturar a imagem de alguma forma. Existem vários serviços para fazer isso por você. Você também precisará de alguém familiarizado com o conteúdo do texto para revisar, pois o OCR ainda não é perfeito. Especialmente com qualquer coisa escrita à mão.

Outros estão discutindo sua pergunta aqui: http://ask.metafilter.com/92506/scan-my-books

Algumas empresas farão isso por você: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Algum software livre: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html




0

Eu recomendaria um scanner de mesa equipado para digitalização de livros ou um scanner de livros inteiro, como mencionado por Chris.

Se possível, compile suas imagens em um formato TIFF, como é o padrão do setor quando se trata de sistemas de gerenciamento de documentos.

Para fazer o OCR, eu recomendaria o tesseract OCR , pois é a estrutura que o Google expôs para o projeto de livros.


0

Embora pareça tentador automatizar o processo, convém investir mais tempo e trabalho, pois esse livro em particular é uma questão pessoal. O OCR fará o volume, mas você terá que revisar página por página e comparar com o original. lembre-se de que os erros do autor fazem parte do acordo, não os corrija (crie notas de rodapé se você se sentir tão inclinado). não se apresse, a digitalização de livros é um trabalho burro, mas o rigor vale a pena e você terá uma cópia digital fina da crônica de sua família. boa sorte com seu esforço :)


na verdade, esse é um ponto muito bom. Eu não tinha pensado em disponibilizar digitalmente o conteúdo original do livro, mas, enquanto eu o tiver, posso também fazer uma versão em pdf.

por que PDF? pense em HTML. e você também pode manter as verificações originais, apesar de ter uma quantidade enorme de dados.

Minha idéia era ter todas as informações de nascimento / linhagem em um banco de dados, para que eu pudesse criar um front-end da Web que tornasse a navegação / pesquisa / atualização mais fácil. Planejo trabalhar com erros de digitação nessa versão. Além disso, tenho alguns primos que não estão lá e seria bom adicioná-los. Eu estava pensando em pdf porque seria bom ter algo que se parecesse com o livro original com os números de página originais e intactos. Essa versão eu deixaria em paz e guardaria todos os erros de digitação do livro.

0

No trabalho, usamos um scanner de livro Plustek Optibook 3600, que custa cerca de US $ 250 .
É basicamente um scanner de mesa plano padrão, mas com a placa de vidro indo diretamente para a borda do scanner, para que a página do livro possa ser colocada na placa. Isso elimina a sombra da coluna vertebral e evita danos aos livros.

insira a descrição da imagem aqui


Você já tentou usar isso com um livro muito grosso? É como 3 polegadas de espessura.

Se você conseguir abri-lo 90 ° com a página razoavelmente plana, tudo ficará bem. Experimente uma borda da mesa.
pelms
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.