Como posso baixar todas as páginas de um site?
Qualquer plataforma está bem.
Como posso baixar todas as páginas de um site?
Qualquer plataforma está bem.
Respostas:
O HTTRACK funciona como um campeão para copiar o conteúdo de um site inteiro. Essa ferramenta pode até pegar as peças necessárias para fazer um site com conteúdo de código ativo funcionar offline. Estou impressionado com as coisas que ele pode replicar offline.
Este programa fará tudo o que você precisar.
Caçada feliz!
O Wget é uma ferramenta clássica de linha de comando para esse tipo de tarefa. Ele vem com a maioria dos sistemas Unix / Linux, e você pode obtê-lo também para Windows . Em um Mac, o Homebrew é a maneira mais fácil de instalá-lo ( brew install wget
).
Você faria algo como:
wget -r --no-parent http://site.com/songs/
Para mais detalhes, consulte o Manual do Wget e seus exemplos , ou por exemplo, estes:
Use wget:
wget -m -p -E -k www.example.com
As opções explicadas:
-m, --mirror Turns on recursion and time-stamping, sets infinite
recursion depth, and keeps FTP directory listings.
-p, --page-requisites Get all images, etc. needed to display HTML page.
-E, --adjust-extension Save HTML/CSS files with .html/.css extensions.
-k, --convert-links Make links in downloaded HTML point to local files.
--mirror
muito explícito. Aqui está na página de manual: " Esta opção ativa a recursão e a marcação de tempo, define a profundidade da recursão infinita e mantém as listagens de diretórios FTP. Atualmente, é equivalente a -r -N - l inf --no-remove-
wget --mirror -p --html-extension --convert-links www.example.com
e ele acabou de baixar o índice. Eu acho que você precisa -r
baixar o site inteiro.
-w seconds
(esperar um número de secconds entre os pedidos, ou a --limit-rate=amount
, para especificar a largura de banda máxima para usar durante o download
Você deve dar uma olhada no ScrapBook , uma extensão do Firefox. Possui um modo de captura detalhado .
O Internet Download Manager possui um utilitário Site Grabber com muitas opções - o que permite baixar completamente qualquer site que você quiser, da maneira que você quiser.
Você pode definir o limite do tamanho das páginas / arquivos para download
Você pode definir o número de sites da filial a visitar
Você pode alterar a maneira como os scripts / pop-ups / duplicados se comportam
Você pode especificar um domínio, somente nesse domínio serão baixadas todas as páginas / arquivos que atendem às configurações necessárias.
Os links podem ser convertidos em links offline para navegação
Você tem modelos que permitem escolher as configurações acima para você
No entanto, o software não é gratuito - verifique se ele atende às suas necessidades, use a versão de avaliação.
Vou abordar o buffer on-line que os navegadores usam ...
Normalmente, a maioria dos navegadores usa um cache de navegação para manter os arquivos baixados de um site por um tempo, para que você não precise baixar imagens e conteúdos estáticos repetidamente. Isso pode acelerar as coisas um pouco em algumas circunstâncias. De um modo geral, a maioria dos caches do navegador é limitada a um tamanho fixo e, quando atingir esse limite, excluirá os arquivos mais antigos do cache.
Os ISPs tendem a ter servidores de cache que mantêm cópias de sites comumente acessados como ESPN e CNN. Isso poupa o trabalho de acessar esses sites toda vez que alguém da rede entra lá. Isso pode significar uma economia significativa na quantidade de solicitações duplicadas para sites externos ao ISP.
Eu gosto do Offline Explorer .
É um shareware, mas é muito bom e fácil de usar.
O WebZip também é um bom produto.
Eu não faço isso há muitos anos, mas ainda existem alguns utilitários por aí. Você pode tentar o Web Snake . Acredito que o usei anos atrás. Lembrei-me do nome imediatamente quando li sua pergunta.
Eu concordo com Stecy. Por favor, não martele o site deles. Muito mal.
Experimente o BackStreet Browser .
É um navegador offline poderoso e gratuito. Um programa de download e visualização de sites de alta velocidade e multi-threading. Ao fazer várias solicitações simultâneas ao servidor, o BackStreet Browser pode baixar rapidamente o site inteiro ou parte de um site, incluindo HTML, gráficos, Java Applets, som e outros arquivos definíveis pelo usuário, além de salvar todos os arquivos no disco rígido, no formato nativo, ou como um arquivo ZIP compactado e visualize off-line.
O Teleport Pro é outra solução gratuita que copia todo e qualquer arquivo de qualquer que seja o seu destino (também possui uma versão paga que permite que você extraia mais páginas de conteúdo).
O DownThemAll é um complemento do Firefox que baixa todo o conteúdo (arquivos de áudio ou vídeo, por exemplo) de uma página da web específica em um único clique. Isso não faz o download de todo o site, mas isso pode ser o tipo de pergunta que a pergunta estava procurando.
Para Linux e OS X: escrevi grab-site para arquivar sites inteiros em arquivos WARC . Esses arquivos WARC podem ser navegados ou extraídos. grab-site permite controlar quais URLs devem ser ignorados usando expressões regulares e elas podem ser alteradas quando o rastreamento estiver em execução. Ele também vem com um extenso conjunto de padrões para ignorar URLs indesejados.
Há um painel da web para monitorar rastreamentos, além de opções adicionais para ignorar o conteúdo ou respostas de vídeo em um determinado tamanho.
Enquanto o wget já foi mencionado, este recurso e linha de comando foram tão perfeitos que achei que mereciam ser mencionados:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
O venerável FreeDownloadManager.org também possui esse recurso.
O Free Download Manager possui duas formas, de duas formas: Site Explorer e Site Spider :
Site Explorer O
Site Explorer permite exibir a estrutura de pastas de um site e fazer o download fácil dos arquivos ou pastas necessários.
HTML Spider
Você pode baixar páginas da Web inteiras ou mesmo sites inteiros com o HTML Spider. A ferramenta pode ser ajustada para baixar arquivos apenas com extensões especificadas.
Acho que o Site Explorer é útil para ver quais pastas incluir / excluir antes de tentar baixar o site inteiro - especialmente quando há um fórum inteiro escondido no site que você não deseja baixar, por exemplo.
baixar HTTracker ele irá baixar sites etapas muito fáceis a seguir.
link para download: http://www.httrack.com/page/2/
vídeo que ajuda a ajudá-lo: https://www.youtube.com/watch?v=7IHIGf6lcL4
Acredito que o Google Chrome pode fazer isso em dispositivos de desktop, basta ir ao menu do navegador e clicar em Salvar página da web.
Observe também que serviços como o pocket podem não salvar o site e, portanto, são suscetíveis à podridão do link.
Por fim, observe que copiar o conteúdo de um site pode infringir os direitos autorais, se aplicável.