Eu usei o wget para baixar arquivos html, onde estão armazenadas as imagens no arquivo?


15

O Firefox estava carregando muito lentamente, por isso decidi usar wgetpara salvar arquivos HTML. Usei o seguinte comando,

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Os arquivos foram salvos na minha pasta pessoal, mas não sei onde as imagens estão armazenadas Anki.

Então, onde estão as imagens armazenadas?


Este artigo explica as opções e como elas são úteis.
Wilf

Respostas:


34

Prefiro usar --page-requisites( -ppara abreviar) em vez de -raqui, pois ele baixa tudo o que a página precisa exibir, mas não outras, e não preciso pensar em que tipo de arquivo eu quero.

Na verdade, eu geralmente estou usando algo como

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Isso significa:

  • -E: Acrescente .htmlao nome do arquivo se for um arquivo HTML, mas não terminar em .htmlou semelhante
  • -H: Baixe arquivos de outros hosts também
  • -k: Após o download, converta qualquer link nele, para que aponte para os arquivos baixados
  • -p: Faça o download de qualquer coisa que a página precise para uma visualização offline adequada

Eu vim aqui procurando -He fiquei feliz em aprender -Ee-k também. Obrigado!
Charles Clayton

2

o uso do parâmetro -r deve permitir ao wget fazer o download de toda a pasta, incluindo suas imagens.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

2

Download dos arquivos de imagem separadamente também

Eu acho que esse comando pode ajudar você a começar.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Permite especificar o local para salvar as imagens e quais tipos de arquivos você deseja. Talvez o download das imagens seja mais fácil.

Fonte :

-r permite recuperação recursiva. Consulte Download recursivo para obter mais informações.

-P define o prefixo do diretório em que todos os arquivos e diretórios são salvos.

-A define uma lista de permissões para recuperar apenas certos tipos de arquivo. Strings e padrões são aceitos e ambos podem ser usados ​​em uma lista separada por vírgulas (como visto acima). Consulte Tipos de arquivos para obter mais informações.

Copiando os arquivos de imagem da sua pasta

Percebi que o site usa arquivos de imagem PNG. Você pode apenas copiar os da sua pasta. Isso deve ser executado na pasta em que você armazenou a página da web.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;

1

O Wget simplesmente baixa o arquivo HTML da página, não as imagens na página, pois as imagens no arquivo HTML da página são gravadas como URLs. Para fazer o que você deseja, use o -R(recursivo), a -Aopção com os sufixos do arquivo de imagem, a --no-parentopção para não subir e a --levelopção com1 .

Especificamente wget -R -A .jpg,.png,.gif --no-parent --level <url>

Ainda melhor, a maioria dos navegadores possui métodos para salvar páginas para visualização offline .

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.