O Acrobat 11 pode ser feito para fazer OCR usando vários núcleos da CPU?


8

O processamento do OCR leva tempo. O uso de vários núcleos da CPU aceleraria o processamento. O Acrobat 10 não era um aplicativo multithread . E o Acrobat 11? Por padrão, o 11 usa OCR usando vários núcleos de CPU (se disponível)? Caso contrário, existem soluções alternativas, por exemplo, scripts, para ajudar o Acrobat 11 a fazer OCR usando vários núcleos da CPU? Através da linguagem de script incorporada do Acrobat ou usando scripts externos que iniciam e direcionam várias instâncias de thread único do Acrobat para paralelamente a partes da tarefa de processamento.

Nota: Esta pergunta não é muito localizada (não se limita a um momento específico) porque (1) a Adobe não lança novas versões principais importantes do Acrobat com muita frequência (o Acrobat 10 foi lançado há dois anos) e (2) o Adobe Acrobat é amplamente aplicativo usado.

Respostas:


6

Instalei a avaliação do Acrobat 11 (XI) no VirtualBox. O Acrobat 11 é de rosca única.

Também criei um script externo que inicia várias instâncias do Acrobat (uma por núcleo da CPU), processa paralelamente o trabalho de OCR e mescla o resultado. Uma etapa crucial é ativar o log de erros nas preferências do Acrobat, analisar todos os arquivos .log e reprocessar qualquer arquivo de erro. O script (ao usar 4 núcleos) ainda faz OCR duas vezes mais rápido que o padrão Acrobat 11.


4
Você pode apenas dar a fonte, se quiser. Se eles ousarem removê-lo, ele poderá ser restaurado facilmente.
Joey

Além disso, se você for a mesma pessoa que postou a pergunta, considere mesclar as duas contas não registradas atuais por uma nova registrada. Você pode começar aqui e também ler isso para obter mais informações. Depois disso, você poderá alterar sua pergunta como achar melhor.
Indrek

Não estou tentando obstruir nada. Como você continua alternando os nomes de usuário, parece que suas edições foram de terceiros que não pareciam entender a pergunta original. Além disso, se você quiser responder sua própria pergunta, escreva-a e responda de uma só vez.
Isaac Rabinovitch

Mesclamos suas contas (não registradas) por enquanto. No entanto, solicitamos que você não use um endereço de e-mail descartável, mas registre-se em nosso site para permanecer conectado, comentar suas perguntas etc. Além disso, nada será removido, nada para se preocupar. Observe que as edições anônimas são sempre revisadas com mais rigor.
slhck

11
@tarcman Alguma possibilidade de postar seu script? Estou certo de que há um grande número de pessoas que estariam interessados em usá-lo
Jason

1

O multithreading precisa ser incorporado a um aplicativo. O desenvolvedor precisa escrever o código que cria threads e que divide a tarefa em subtarefas que podem ser alocadas para cada thread. Se os desenvolvedores do Acrobat falharem em fazer isso para o código de reconhecimento de OCR, não há como o usuário criar a lógica extra necessária.


2
Se puder ser aplicado a intervalos de páginas, você provavelmente poderá tentar dividir o trabalho em vários processos, cada OCR com apenas algumas páginas e depois mesclando os resultados novamente.
Joey #

0

Para usar todos os núcleos do OCR, convém consultar o PDF-Exchange Editor. Seu mecanismo de OCR parece usar todos os núcleos no meu sistema. Porém, quando você atinge esse nível de desempenho, faz sentido usar um SSD.

Deve haver um ajuste no Windows que fará com que dedique mais tempo de CPU a um único aplicativo encadeado que não esteja vinculado à E / S. No meu sistema, o Acrobat não está diminuindo o desempenho do disco, mas o maior tempo de CPU que eu ganho criando um índice é de cerca de 30%.

Vamos ser sinceros, o Acrobat é um aplicativo amplamente usado, mas mal escrito. O Acrobat Pro possui alguns recursos que você ainda não consegue encontrar em nenhum outro lugar (ainda).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.