Existe algum programa fácil de usar no Ubuntu que pode digitalizar muitas páginas diretamente em um arquivo PDF?
Existe algum programa fácil de usar no Ubuntu que pode digitalizar muitas páginas diretamente em um arquivo PDF?
Respostas:
A idéia de ter um utilitário de digitalização simples estava por trás do desenvolvimento de, bem, o Simple Scan - a ferramenta de digitalização instalada por padrão a partir do 10.04 (Aplicativos, Gráficos, Simple Scan).
Basta digitalizar quantas páginas quiser e escolher PDF como formato de arquivo ao salvar.
Outro programa um pouco menos simples que oferece recursos adicionais como reconhecimento de texto é o gscan2pdf , também nos repositórios.
"Fácil de usar" está nos olhos do usuário, mas xsane
fornece essa funcionalidade. Escolha várias páginas onde diz visualizador (ou pressione CTRL-M), e não deve ser muito difícil descobrir a partir daí.
Eu estava usando xsane
até que eu vi esta questão e considerou a sua idiossincrática interface para dizer o mínimo, mas eficaz.
Ao ver essa pergunta, procurei e encontrei o gscan2pdf vivendo nos repositórios Ubuntu Lucid / Maverick. Ele usa o mesmo mecanismo de verificação (libsane), mas a interface do usuário é muito mais semelhante ao Gnome. Por um bom tempo, tente:
sudo apt-get install gscan2pdf
Altere o nome do arquivo de myfile.jpg para myfile.pdf na caixa de diálogo Salvar do Simple Scan.
Testado no Ubuntu 14.04, Simple Scan 3.12.1.
Isso funciona mesmo que o menu suspenso de tipo de arquivo não mostre "PDF", apenas "Imagens". Considero isso um bug da interface do usuário.
Este recurso está documentado em Help > Contents
:
Na caixa de diálogo "Salvar como", escolha um dos tipos de arquivo suportados ou simplesmente altere a extensão no campo "Nome".
Ele diz que os seguintes formatos são suportados:
Fato interessante: se você alterar o tipo de digitalização (suspenso ao lado de "Digitalizar") para "Texto", o tipo de arquivo padrão será PDF.
Digitalize páginas do scanner USB. Use o tesseract para OCR em um PDF. Mesclar várias páginas em um PDF. Uso: scan2PDF outputfilename number_of_pages
#!/bin/bash
#scan2PDF
#Requires: tesseract 3.03 for OCR to PDF
# scanimage for scanning, I use 1.0.24
# pdfunite to merge multiple PDF into one, I use 0.26.5
#
# Use scanimage -L to get a list of devices.
# e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
# then copy/paste genesys:libusb:006:003 into SCANNER below.
# play with CONTRAST to get good images
DPI=300
TESS_LANG=nor #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003 #My USB scanner
CONTRAST=35 #Contrast to remove paper look
FILENAME=$1 #Agrument 1,filename
PAGES=$2 #Argument 2, number of pages
re='^[0-9]+$' #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi
SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp
if [ -d ${TMP_DIR} ] #Check if it exists a directory already
then
echo Error: The directory ${TMP_DIR} exists.
exit 2
fi
mkdir ${TMP_DIR} #Make and go to temp dir
cd ${TMP_DIR}
echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES} --batch-prompt
echo Starts Tesseract OCR
for file in *.tif #Goes through every tif file in temp dir
do
tesseract $file ${file%.tif} -l ${TESS_LANG} pdf
done
if [ "$PAGES" = "1" ] #How many pages
then
cp out1.pdf ../${FILENAME}.pdf #Only one page, just copy the PDF back
else
for file in *.pdf #More pages, merge the pages into one PDF and copy back
do
pdfuniteargs+=${file}
pdfuniteargs+=" "
done
pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
echo ${FILENAME}.pdf done
rm * #Done, clean up
cd ..
rmdir ${TMP_DIR}
Para aqueles que desejam usar o XSANE. É muito poderoso e intuitivo depois de ler o guia de configuração vinculado em Ajuda> XSane Doc no programa - para saber quanto você pode fazer com ele. Também vale a pena verificar se o back-end do SANE está funcionando corretamente (não muito específico do Arch): https://wiki.archlinux.org/index.php/SANE
Se você deseja digitalizar documentos automaticamente a partir de um alimentador e se perguntar se o XSane saberá quando parar (e não para muito cedo), basta inserir um número no canto superior esquerdo (ícone do número de digitalizações) maior que o número de páginas que cabem no seu alimentador. Ou seja, se o alimentador pode levar 10 páginas, digite 15 (para considerar a variação de espessura). Se você possui um scanner duplex, duplique esse número.
Quando o alimentador acabar, você receberá uma caixa de diálogo com um triângulo de aviso verde dizendo "" Páginas digitalizadas: 0 ". Isso significa que o alimentador está vazio e você pode fechar a caixa de diálogo. Se você selecionou" visualizador "ou" salvar " "no canto superior direito do XSane, todos os arquivos estarão lá - lembre-se de salvá-los do visualizador. Agora você pode pressionar scan novamente para continuar de onde parou, com os números aumentando a partir do mesmo ponto ou você pode começar um novo projeto.Não haverá páginas em branco adicionadas.Se você selecionou "Multipáginas", a caixa de diálogo do projeto deve mostrar todas as digitalizações concluídas e você pode clicar para salvar como PDF de várias páginas, TIFF ou PostScript.
HTH,
DC