Você conhece um bom software para baixar todos os links em PDF em uma página da web?
O sistema operacional é o Windows 7.
Você conhece um bom software para baixar todos os links em PDF em uma página da web?
O sistema operacional é o Windows 7.
Respostas:
Você pode usar o wget e executar um comando como este:
wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com
Ou com as opções curtas:
wget -r -l 1 -nd -nH -A pdf http://example.com
ATUALIZAÇÃO: Como a atualização indica que você está executando o Windows 7: use o wget para Windows a partir de um cmd
prompt.
ATUALIZAÇÃO 2: Para uma solução gráfica - embora possa ser um exagero, pois também há outros arquivos, é DownThemAll
-w 5
No seu navegador, pressione CTRL+ SHIFT+ Je digite
var pdflinks = []; Array.prototype.map. chamada (document.querySelectorAll ("a [href $ = \". pdf \ "]"), função (e, i) {if ((pdflinks || []). indexOf (e.href) == - 1) {pdflinks.push (e.href);}}); console.log (pdflinks.join ("")));
Isso retornará no console:
" /superuser/tagged/somepdf1.pdf " " /superuser/tagged/somepdf2.pdf " " /superuser/tagged/somepdf3.pdf "
Agora usando wget
com as opções de linha de comandowget url1 url2 ...
Copie e cole, abra um console e wget
pressione o botão direito do mouse para inserir o conteúdo da área de transferência e pressione Enter.
Para usar um arquivo de download, junte as linhas com "\ n" e use o parâmetro da seguinte maneira wget -i mydownload.txt
Observe que a maioria dos outros programas de download (GUI) também aceita ser chamada com uma lista de URLs separada por espaço.
Espero que isto ajude. É assim que geralmente faço. É mais rápido e mais flexível do que qualquer extensão com uma interface gráfica, tenho que aprender e me familiarizar.
console.log('"' + pdflinks.join('" "') + '"')
- caso contrário, você não recebe URLs citados
Se você deseja permanecer no navegador, escrevi uma extensão da Web exatamente para esse fim - estou trabalhando para adicionar a capacidade de salvar PDFs de artigos acadêmicos com títulos formatados corretamente, mas se você apenas deseja fazer o download deles, tudo é perfeito por esta.
Chama-se Tab Save e na Chrome Web Store aqui . Você nem precisa inserir a lista de URLs se apenas abrir todas elas em guias (mas, para um grande número de arquivos, isso pode tornar o computador mais lento, então eu adicionei a opção de adicionar os seus).
Recentemente usei o uGet (no Windows) para isso. Possui uma GUI e você pode filtrar os arquivos que pretende baixar.
Salva tentando lembrar todos aqueles
No Google Chrome, é possível usar extensões como:
Com esta extensão, você pode baixar todas as imagens, vídeos, pdf, doc e qualquer outro arquivo vinculado na página da web que está visitando.
Existem poucas ferramentas Python que permitem o download de links em PDF do site com base nos resultados de pesquisa do Google.
Por exemplo
google_dl
script (recomendado).
Uso:
./google_dl -s http://www.example.com/ -f pdf ""
gsrchDwn
script (baseado no script de neo ).
Uso:
./gsrchDwn.py --query "site:http://www.example.com/" --ftype pdf
Nota: Eu sou o mantenedor dos dois scripts mencionados.
Ambos estão implementando a xgoogle
biblioteca Python. Meu fork desta biblioteca é baseado na pkrumins/xgoogle
versão .
Relacionado: Uma pesquisa na web a partir da linha de comando do Linux .