Respostas:
o Formato PDF desde o seu início (mais de 20 anos atrás) nunca foi planejado para ser um host de dados extraíveis e significativamente estruturados .
Seu propósito original era ser uma representação visual confiável de texto, imagens e diagramas em um documento - um tipo de papel digital (que também seria transferido de forma confiável para o papel real via impressão). Só mais tarde no seu desenvolvimento mais recursos foram adicionados, entre eles alguns que devem ajudar na extração de dados novamente (google for PDF marcado ).
Para alguns exemplos de problemas que são colocados quando as tabelas de raspagem de dados de PDFs, consulte este artigo:
Contradizendo meu ponto '1.' acima Agora digo isso: para uma incrível família de ferramentas que fica melhor e melhor de semana para semana para extrair dados tabulares de PDFs (a menos que sejam páginas digitalizadas), veja estes links:
Então, vá em busca de Tabula. Se alguma ferramenta pode fazer o que você quer, neste momento (4 anos depois que esta pergunta foi feita), Tabula está provavelmente entre as melhores para o trabalho!
P.S .: Tabula é um software livre e de código aberto, escrito em Ruby.
Converta arquivos PDF para documentos do Microsoft Excel, extraia tabelas. Este conversor PDF gratuito e criador PDF é rápido e confiável. Espero que isso tenha sido útil
Eu sei que este é um post antigo, mas há muitas ferramentas gratuitas que você pode usar para conversões únicas. aqui estão alguns exemplos:
Você encontrará muito mais se pesquisar PDF Table to Excel
no Google.