Como salvar todas as páginas da web vinculadas de um


15

Gostaria de salvar esta página da Web e todas as páginas às quais ele vincula. e esperamos ter o mesmo vínculo entre as páginas da web salvas.

Existem algumas maneiras, em vez de abrir e salvar cada página vinculada?

Respostas:


12

Você pode fazer o que quiser com o utilitário de linha de comando wget . Se você fornecer a -ropção, ele fará o download recursivo de páginas da web. Por exemplo:

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

Isso fará o download dessa página da Web e de tudo o que ela vincular. Você também pode repetir apenas um certo número de níveis; para isso, basta fornecer -rum número. Assim:

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

@ Mark: Obrigado! Agora, tento baixar mat.gsia.cmu.edu/orclass e as páginas vinculadas usando o comando wget -r mat.gsia.cmu.edu/orclass . O wget criará um diretório mat.gsia.cmu.edu no diretório especificado por você e fará o download das páginas nele. Mas os links entre as páginas baixadas não têm mat.gsia.cmu.edu em seus caminhos, então isso se torna um problema e não posso ir de uma página para outra clicando nos links. Fiquei me perguntando por que e como resolver o problema? Obrigado!
Tim

Não acho que você possa baixar recursivamente links externos, @Tim.
Wuffers

"Links externos" significam aqueles que não estão no caminho atual?
23411 Tim Tim

@ Tim: por ligações externas I Ligações médios que se referem fora do mat.gsi.cmu.edu
Wuffers

1
@ Tim: Oh, ok. Desculpe pelo mal entendido. Eu acho que você pode tentar editar os arquivos HTML por conta própria para verificar e tentar fazê-los funcionar.
Wuffers

10

Este tópico é antigo agora, mas outros podem analisá-lo. Obrigado, Wuffers, por me indicar a direção certa, mas, para expandir a resposta de Wuffers: Uma versão moderna do wget tem várias opções úteis para links recorrentes e corrigi-los para serem links relativos locais, para que você possa navegar em uma cópia local de um site. Use a opção -r para recursar, a opção -k para corrigir links locais, a opção -H para atravessar em domínios diferentes do original, a opção -D para limitar em quais domínios você atravessar, a opção -l para limitar o profundidade de recursão e a opção -p para garantir que as folhas de sua travessia tenham tudo o que precisam para exibir corretamente. Por exemplo, o seguinte fará o download de uma página e tudo o que ela vincula imediatamente, tornando-a localmente navegável,

wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain

Usando um comando semelhante ao acima, pude baixar um pedaço de uma página wiki, com links externos, para o meu disco local sem baixar megabytes de dados estranhos. Agora, quando abro a página raiz no meu navegador, posso navegar na árvore sem uma conexão com a Internet. O único irritante é que a página raiz estava oculta em subdiretórios e eu tive que criar uma página de redirecionamento de nível superior para facilitar a exibição. Pode levar algumas tentativas e erros para acertar. Leia a página de manual do wget e experimente.


4

Você pode usar um rastreador de site como o httrack , que é gratuito.

A partir do site;

[httrack] permite baixar um site da Internet para um diretório local, construindo recursivamente todos os diretórios, obtendo HTML, imagens e outros arquivos do servidor para o seu computador. O HTTrack organiza a estrutura de links relativa do site original. Basta abrir uma página do site "espelhado" no seu navegador e você pode navegar no site de link para link, como se estivesse visualizando on-line.


1
+1 Excelente aplicação! Mas também está pegando todos os arquivos zip vinculados, o que eu não queria. Mas então eu provavelmente deveria ter lido as instruções primeiro!
finlaybob

Sim, ele pode / seguirá todos os links para baixar arquivos. (@Finlaybob você está ciente homepage listado em seu perfil foi cortado?)
RJFalconer

Eu não estava! Vou dar uma olhada - obrigado por me informar!
finlaybob
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.