Como baixar um site a partir da archive.org Wayback Machine?


82

Quero obter todos os arquivos de um determinado site em archive.org. Os motivos podem incluir:

  • o autor original não arquivou seu próprio site e agora está offline, quero fazer um cache público a partir dele
  • Eu sou o autor original de um site e perdi algum conteúdo. Quero recuperá-lo
  • ...

Como faço isso ?

Levando em consideração que a máquina wayback archive.org é muito especial: os links das páginas da Web não estão apontando para o próprio arquivo, mas para uma página da Web que pode não estar mais lá. O JavaScript é usado no lado do cliente para atualizar os links, mas um truque como um wget recursivo não funcionará.


14
Eu vim através do mesmo problema e codifiquei uma jóia. Para instalar: gem install wayback_machine_downloader. Execute wayback_machine_downloader com o URL base do site que você deseja recuperar como parâmetro: wayback_machine_downloader http://example.comMais informações: github.com/hartator/wayback_machine_downloader
Hartator

3
Uma ajuda passo a passo para usuários do Windows (win8.1 64bit para mim), nova no Ruby, eis o que eu fiz para que funcione: 1) Instalei o rubyinstaller.org/downloads e execute o "rubyinstaller-2.2.3-x64 .exe "2) baixou o arquivo zip github.com/hartator/wayback-machine-downloader/archive/… 3) descompacte o zip no meu computador 4) pesquise no menu Iniciar do Windows por" Iniciar prompt de comando com Ruby "(a ser continua)
Erb

3
5) siga as instruções do github.com/hartator/wayback_machine_downloader (por exemplo: copie e cole este "gem install wayback_machine_downloader" no prompt. Pressione enter e ele instalará o programa ... e siga as diretrizes de "uso"). 6) depois que o site for capturado, você encontrará os arquivos em C: \ Users \ YOURusername \ websites
Erb

Respostas:


62

Tentei diferentes maneiras de baixar um site e, finalmente, encontrei o downloader da máquina de wayback - que já havia sido mencionado pelo Hartator (então todos os créditos são para ele, por favor), mas simplesmente não percebi o comentário dele à pergunta. Para economizar seu tempo, decidi adicionar a gema wayback_machine_downloader como uma resposta separada aqui.

O site http://www.archiveteam.org/index.php?title=Restoring lista essas maneiras de fazer o download em archive.org:

  • Wayback Machine Downloader , pequena ferramenta em Ruby para baixar qualquer site da Wayback Machine. Gratuito e de código aberto. Minha escolha!
  • Warrick - O site principal parece inativo.
  • Wayback downloader , um serviço que fará o download do seu site a partir da Wayback Machine e até adicionará um plugin para o Wordpress. Não é grátis.

i também escreveu um "downloader wayback", em php, o download dos recursos, ajustando links, etc: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, Na página que você vinculou, o que é uma conquista da Equipe de Arquivamento ?
21718 Pacerier

1
Em outubro de 2018, o Wayback Machine Downloader ainda funciona.
Esse brasileiro

@Pacerier significa (conjuntos de) arquivos WARC produzidos pela equipe de arquivamento (e geralmente inseridos na máquina de recuperação de arquivos da Internet), consulte archive.org/details/archiveteam
Nemo

12

Isso pode ser feito usando um script shell bash combinado comwget .

A idéia é usar alguns dos recursos de URL da máquina de wayback:

  • http://web.archive.org/web/*/http://domain/*listará todas as páginas salvas de forma http://domain/recursiva. Ele pode ser usado para construir um índice de páginas para baixar e evitar heurísticas para detectar links em páginas da web. Para cada link, há também a data da primeira versão e da última versão.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagelistará todas as versões do http://domain/pageano AAAA. Dentro dessa página, links específicos para versões podem ser encontrados (com data e hora exata)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageretornará a página não modificada http://domain/pageno carimbo de data / hora especificado. Observe o token id_ .

Estes são os princípios básicos para criar um script para baixar tudo de um determinado domínio.


7
Você realmente deve usar a API. As páginas de ajuda da Wikipedia archive.org/help/wayback_api.php são para editores e não para o público em geral. Portanto, essa página é focada na interface gráfica, que é substituída e inadequada para esta tarefa.
Nemo

Provavelmente seria mais fácil dizer pegar o URL (curtir http://web.archive.org/web/19981202230410/http://www.google.com/) e adicionar id_ao final dos "números da data". Então, você obteria algo como http://web.archive.org/web/19981202230410id_/http://www.google.com/.
haykam

1
Um script python também pode ser encontrada aqui: gist.github.com/ingamedeo/...
Amedeo Baragiola

4

Existe uma ferramenta projetada especificamente para esse fim, Warrick: https://code.google.com/p/warrick/

É baseado no protocolo Memento.


3
Tanto quanto eu consegui usar isso (em maio de 2017), ele apenas recupera o que o archive.is contém e praticamente ignora o que está no archive.org; Ele também tenta obter documentos e imagens dos caches do Google / Yahoo, mas falha totalmente. Warrick foi clonado várias vezes no GitHub desde que o Google Code foi desativado, talvez existam versões melhores lá.
Gwyneth Llewelyn

0

Você pode fazer isso facilmente com wget.

wget -rc --accept-regex '.*ROOT.*' START

Onde ROOTestá o URL raiz do site e STARTo URL inicial. Por exemplo:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Observe que você deve ignorar o quadro de agrupamento do arquivo da Web para STARTURL. Na maioria dos navegadores, você pode clicar com o botão direito do mouse na página e selecionar "Mostrar apenas este quadro".

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.