Baixar todos os links em PDF em uma página da web? [fechadas]


Respostas:


36

Você pode usar o wget e executar um comando como este:

wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com

Ou com as opções curtas:

wget -r -l 1 -nd -nH -A pdf http://example.com

ATUALIZAÇÃO: Como a atualização indica que você está executando o Windows 7: use o wget para Windows a partir de um cmdprompt.

ATUALIZAÇÃO 2: Para uma solução gráfica - embora possa ser um exagero, pois também há outros arquivos, é DownThemAll


obrigado Kevin pelo seu conselho, o wget parece bom, de qualquer maneira eu preferiria um software 'gráfico', não linha de comando. :)
iAsk

2
Isso rejeita até a página .html inicial. Já foi testado?
Dan3

A pergunta é feita sobre o download de todos os links em PDF; portanto, a página .html inicial será ignorada.
Kevin Worthington

Existe a possibilidade de fazer o mesmo no Windows 7 usando o Power Shell?
Benedikt Buchert

1
Eu também sugeriria um atraso de pelo menos alguns segundos entre os downloads de arquivos, para ser agradável e não sobrecarregar o servidor remoto. e, g, para wget, adicione uma bandeira de-w 5
KJH 21/01

6
  1. No seu navegador, pressione CTRL+ SHIFT+ Je digite

    var pdflinks = []; Array.prototype.map. chamada (document.querySelectorAll ("a [href $ = \". pdf \ "]"), função (e, i) {if ((pdflinks || []). indexOf (e.href) == - 1) {pdflinks.push (e.href);}}); console.log (pdflinks.join ("")));

    Isso retornará no console:

    " /superuser/tagged/somepdf1.pdf " " /superuser/tagged/somepdf2.pdf " " /superuser/tagged/somepdf3.pdf "

  2. Agora usando wgetcom as opções de linha de comandowget url1 url2 ...

Copie e cole, abra um console e wgetpressione o botão direito do mouse para inserir o conteúdo da área de transferência e pressione Enter.

Para usar um arquivo de download, junte as linhas com "\ n" e use o parâmetro da seguinte maneira wget -i mydownload.txt

Observe que a maioria dos outros programas de download (GUI) também aceita ser chamada com uma lista de URLs separada por espaço.

Espero que isto ajude. É assim que geralmente faço. É mais rápido e mais flexível do que qualquer extensão com uma interface gráfica, tenho que aprender e me familiarizar.


1
Melhor ainda, console.log('"' + pdflinks.join('" "') + '"')- caso contrário, você não recebe URLs citados
dan3

1

Se você deseja permanecer no navegador, escrevi uma extensão da Web exatamente para esse fim - estou trabalhando para adicionar a capacidade de salvar PDFs de artigos acadêmicos com títulos formatados corretamente, mas se você apenas deseja fazer o download deles, tudo é perfeito por esta.

Chama-se Tab Save e na Chrome Web Store aqui . Você nem precisa inserir a lista de URLs se apenas abrir todas elas em guias (mas, para um grande número de arquivos, isso pode tornar o computador mais lento, então eu adicionei a opção de adicionar os seus).


0

Recentemente usei o uGet (no Windows) para isso. Possui uma GUI e você pode filtrar os arquivos que pretende baixar.

Salva tentando lembrar todos aqueles


0

No Google Chrome, é possível usar extensões como:

  • Download Master

    Com esta extensão, você pode baixar todas as imagens, vídeos, pdf, doc e qualquer outro arquivo vinculado na página da web que está visitando.


0

Google

Existem poucas ferramentas Python que permitem o download de links em PDF do site com base nos resultados de pesquisa do Google.

Por exemplo

Nota: Eu sou o mantenedor dos dois scripts mencionados.

Ambos estão implementando a xgooglebiblioteca Python. Meu fork desta biblioteca é baseado na pkrumins/xgoogleversão .


Relacionado: Uma pesquisa na web a partir da linha de comando do Linux .

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.