Renomeação de arquivo PDF de acordo com metadados?

8

Existe algo que eu possa usar que renomeie arquivos PDF de acordo com seu conteúdo? Basicamente, um equivalente a http://macscripter.net/viewtopic.php?id=27620 no Ubuntu.

pdf document

— user13107
fonte

4

Se você estiver familiarizado com o python, poderá usar o script em http://blog.matt-swain.com/post/25650072381/a-lightweight-xmp-parser-for-extracting-pdf-metadata-in . Acabei de testar os scripts que ele fornece (para começar, você pode pip install pdfminer) e eles funcionam bem. O resultado que eles dão é algo como:

[{'ModDate': "D:20050422142709+02'00'", 'CreationDate': "D:20050422142709+02'00'", 'Producer': 'Mac OS X 10.3.8 Quartz PDFContext', 'Creator': 'Word'}]

Essa saída você pode usar para renomear seus arquivos.

— don.joey
fonte

1

Na verdade, presumi até agora que você quer dizer metadados com conteúdo (com base no seu link). Também existe uma boa ferramenta para recuperação de informações acadêmicas. É chamado pdfmeat .

— don.joey

5

Isso é muito fácil de conseguir com o exiftool .

Por exemplo, o comando a seguir renomeará todos os arquivos no diretório atual para <title>.extension:

exiftool '-filename<$title.%e' .

Você pode instalar o exiftool no Ubuntu com:

sudo apt-get install libimage-exiftool-perl

Consulte a documentação oficial para obter mais informações:

http://www.sno.phy.queensu.ca/~phil/exiftool/filename.html

— Glutanimado
fonte

3

Existe outra alternativa. Você poderia sudo apt-get install pdftk. Com essa biblioteca, você pode executar um comando como o pdftk myfile.pdf dump_dataque resulta em algo em um conjunto de infoe value:

InfoKey: Creator
InfoValue: Word
InfoKey: Producer
InfoValue: Mac OS X 10.3.8 Quartz PDFContext
InfoKey: ModDate
InfoValue: D:20050422142709+02'00'
InfoKey: CreationDate
InfoValue: D:20050422142709+02'00'
PdfID0: d7af25c8df737276d8d6b5de49d94d92
PdfID1: d7af25c8df737276d8d6b5de49d94d92
NumberOfPages: 58

Novamente, você pode usar essas informações em um script de renomeação. Se você acha que o último é algo melhor personalizado, depende de que você queira apenas o título, o autor do título ou qualquer outra coisa.

Fonte

— don.joey
fonte

0

Se você está procurando uma solução pronta para uso e seus PDFs são de natureza acadêmica, experimente o Zotero , o plugin do Firefox.

Infelizmente, são necessárias várias etapas, cada uma das quais pode ser um pouco lenta se você estiver tentando trabalhar com muitos PDFs de uma só vez:

Arraste e solte seus PDFs no Zotero.
Clique com o botão direito do mouse neles para recuperar os metadados (e baixar automaticamente as informações bibliográficas).
Se os arquivos foram reconhecidos corretamente, clique com o botão direito do mouse neles novamente para renomear automaticamente.
Exporte ou mova diretamente os arquivos renomeados para onde desejar.

A resposta para uma pergunta semelhante em Superusers mostra como fazer a mesma coisa usando o Mendeley . No Zotero, esse processo pode ser automatizado ainda mais usando o Zotfile . Finalmente, aqui está uma extensa lista de ferramentas potencialmente úteis nesse sentido.

— Brian Z
fonte