Digitalize muitas páginas diretamente em um PDF

36

Existe algum programa fácil de usar no Ubuntu que pode digitalizar muitas páginas diretamente em um arquivo PDF?

pdf scanning

— pupeno
fonte

Imaginando, existem qualificações especiais necessárias para scanners / impressoras que eu gostaria de usar no Ubuntu?

— JFW

@JFW, aqui está uma lista de dispositivos suportados pelo XSane, o back-end usado pela maioria dos scanners do Ubuntu. As impressoras / scanners / copiadoras HP parecem uma boa opção confiável, se você estiver procurando.

— poolieby

38

A idéia de ter um utilitário de digitalização simples estava por trás do desenvolvimento de, bem, o Simple Scan - a ferramenta de digitalização instalada por padrão a partir do 10.04 (Aplicativos, Gráficos, Simple Scan). texto alternativo

Basta digitalizar quantas páginas quiser e escolher PDF como formato de arquivo ao salvar.

Outro programa um pouco menos simples que oferece recursos adicionais como reconhecimento de texto é o gscan2pdf , também nos repositórios. texto alternativo

— Marcel Stimberg
fonte

3

+1 para o Simple Scan - é tão fácil e simples, mas também muito poderoso - é particularmente adequado para o trabalho que você mencionou.

— 8128

6

"Fácil de usar" está nos olhos do usuário, mas xsanefornece essa funcionalidade. Escolha várias páginas onde diz visualizador (ou pressione CTRL-M), e não deve ser muito difícil descobrir a partir daí.

— Karl Bielefeldt
fonte

1

Pessoalmente, vejo o xsane longe de ser fácil de usar ... #

— 8128/03

Eu tenho usado o xsane esse tempo todo. Nunca me ocorreu que poderia haver uma ferramenta melhor.

— Amanda

3

Eu estava usando xsaneaté que eu vi esta questão e considerou a sua idiossincrática interface para dizer o mínimo, mas eficaz.

Ao ver essa pergunta, procurei e encontrei o gscan2pdf vivendo nos repositórios Ubuntu Lucid / Maverick. Ele usa o mesmo mecanismo de verificação (libsane), mas a interface do usuário é muito mais semelhante ao Gnome. Por um bom tempo, tente:

sudo apt-get install gscan2pdf

— msw
fonte

3

Altere o nome do arquivo de myfile.jpg para myfile.pdf na caixa de diálogo Salvar do Simple Scan.

Testado no Ubuntu 14.04, Simple Scan 3.12.1.

Isso funciona mesmo que o menu suspenso de tipo de arquivo não mostre "PDF", apenas "Imagens". Considero isso um bug da interface do usuário.

Este recurso está documentado em Help > Contents:

Na caixa de diálogo "Salvar como", escolha um dos tipos de arquivo suportados ou simplesmente altere a extensão no campo "Nome".

Ele diz que os seguintes formatos são suportados:

PDF
JPEG
PNG
TIFF

Fato interessante: se você alterar o tipo de digitalização (suspenso ao lado de "Digitalizar") para "Texto", o tipo de arquivo padrão será PDF.

— Ciro Santilli adicionou uma nova foto
fonte

1

Digitalize páginas do scanner USB. Use o tesseract para OCR em um PDF. Mesclar várias páginas em um PDF. Uso: scan2PDF outputfilename number_of_pages

#!/bin/bash
#scan2PDF
#Requires:      tesseract 3.03 for OCR to PDF
#               scanimage for scanning, I use  1.0.24
#               pdfunite to merge multiple PDF into one, I use 0.26.5
#
#       Use scanimage -L to get a list of devices.
#       e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
#       then copy/paste genesys:libusb:006:003 into SCANNER below.
#       play with CONTRAST to get good images
DPI=300
TESS_LANG=nor  #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003  #My USB scanner
CONTRAST=35   #Contrast to remove paper look

FILENAME=$1 #Agrument 1,filename
PAGES=$2    #Argument 2, number of pages

re='^[0-9]+$'  #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
   echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi

SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp

if [ -d ${TMP_DIR} ]  #Check if it exists a directory already
then
        echo Error: The directory ${TMP_DIR} exists.
        exit 2
fi
mkdir ${TMP_DIR}  #Make and go to temp dir
cd ${TMP_DIR}

echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES}  --batch-prompt


echo Starts Tesseract OCR

for file in  *.tif  #Goes through every tif file in temp dir
do
        tesseract $file  ${file%.tif} -l ${TESS_LANG} pdf

done

if [ "$PAGES" = "1" ] #How many pages
then
    cp out1.pdf ../${FILENAME}.pdf  #Only one page, just copy the PDF back
else
        for file in *.pdf  #More pages, merge the pages into one PDF and copy back
    do
            pdfuniteargs+=${file} 
            pdfuniteargs+=" "
    done
    pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
    echo ${FILENAME}.pdf done

rm *                    #Done, clean up
cd ..
rmdir ${TMP_DIR}

— morten
fonte

é um método muito Linuxoidal

— rth

1

Para aqueles que desejam usar o XSANE. É muito poderoso e intuitivo depois de ler o guia de configuração vinculado em Ajuda> XSane Doc no programa - para saber quanto você pode fazer com ele. Também vale a pena verificar se o back-end do SANE está funcionando corretamente (não muito específico do Arch): https://wiki.archlinux.org/index.php/SANE

Se você deseja digitalizar documentos automaticamente a partir de um alimentador e se perguntar se o XSane saberá quando parar (e não para muito cedo), basta inserir um número no canto superior esquerdo (ícone do número de digitalizações) maior que o número de páginas que cabem no seu alimentador. Ou seja, se o alimentador pode levar 10 páginas, digite 15 (para considerar a variação de espessura). Se você possui um scanner duplex, duplique esse número.

Quando o alimentador acabar, você receberá uma caixa de diálogo com um triângulo de aviso verde dizendo "" Páginas digitalizadas: 0 ". Isso significa que o alimentador está vazio e você pode fechar a caixa de diálogo. Se você selecionou" visualizador "ou" salvar " "no canto superior direito do XSane, todos os arquivos estarão lá - lembre-se de salvá-los do visualizador. Agora você pode pressionar scan novamente para continuar de onde parou, com os números aumentando a partir do mesmo ponto ou você pode começar um novo projeto.Não haverá páginas em branco adicionadas.Se você selecionou "Multipáginas", a caixa de diálogo do projeto deve mostrar todas as digitalizações concluídas e você pode clicar para salvar como PDF de várias páginas, TIFF ou PostScript.

HTH,

DC

— user901387
fonte