Como baixar um site a partir da archive.org Wayback Machine?

82

Quero obter todos os arquivos de um determinado site em archive.org. Os motivos podem incluir:

o autor original não arquivou seu próprio site e agora está offline, quero fazer um cache público a partir dele
Eu sou o autor original de um site e perdi algum conteúdo. Quero recuperá-lo
...

Como faço isso ?

Levando em consideração que a máquina wayback archive.org é muito especial: os links das páginas da Web não estão apontando para o próprio arquivo, mas para uma página da Web que pode não estar mais lá. O JavaScript é usado no lado do cliente para atualizar os links, mas um truque como um wget recursivo não funcionará.

archiving web

— user36520
fonte

14

Eu vim através do mesmo problema e codifiquei uma jóia. Para instalar: gem install wayback_machine_downloader. Execute wayback_machine_downloader com o URL base do site que você deseja recuperar como parâmetro: wayback_machine_downloader http://example.comMais informações: github.com/hartator/wayback_machine_downloader

— Hartator

3

Uma ajuda passo a passo para usuários do Windows (win8.1 64bit para mim), nova no Ruby, eis o que eu fiz para que funcione: 1) Instalei o rubyinstaller.org/downloads e execute o "rubyinstaller-2.2.3-x64 .exe "2) baixou o arquivo zip github.com/hartator/wayback-machine-downloader/archive/… 3) descompacte o zip no meu computador 4) pesquise no menu Iniciar do Windows por" Iniciar prompt de comando com Ruby "(a ser continua)

— Erb

3

5) siga as instruções do github.com/hartator/wayback_machine_downloader (por exemplo: copie e cole este "gem install wayback_machine_downloader" no prompt. Pressione enter e ele instalará o programa ... e siga as diretrizes de "uso"). 6) depois que o site for capturado, você encontrará os arquivos em C: \ Users \ YOURusername \ websites

— Erb

62

Tentei diferentes maneiras de baixar um site e, finalmente, encontrei o downloader da máquina de wayback - que já havia sido mencionado pelo Hartator (então todos os créditos são para ele, por favor), mas simplesmente não percebi o comentário dele à pergunta. Para economizar seu tempo, decidi adicionar a gema wayback_machine_downloader como uma resposta separada aqui.

O site http://www.archiveteam.org/index.php?title=Restoring lista essas maneiras de fazer o download em archive.org:

Wayback Machine Downloader , pequena ferramenta em Ruby para baixar qualquer site da Wayback Machine. Gratuito e de código aberto. Minha escolha!
Warrick - O site principal parece inativo.
Wayback downloader , um serviço que fará o download do seu site a partir da Wayback Machine e até adicionará um plugin para o Wordpress. Não é grátis.

— Comic Sans
fonte

i também escreveu um "downloader wayback", em php, o download dos recursos, ajustando links, etc: gist.github.com/divinity76/85c01de416c541578342580997fa6acf

— hanshenrik

@ComicSans, Na página que você vinculou, o que é uma conquista da Equipe de Arquivamento ?

— 21718 Pacerier

1

Em outubro de 2018, o Wayback Machine Downloader ainda funciona.

— Esse brasileiro

@Pacerier significa (conjuntos de) arquivos WARC produzidos pela equipe de arquivamento (e geralmente inseridos na máquina de recuperação de arquivos da Internet), consulte archive.org/details/archiveteam

— Nemo

12

Isso pode ser feito usando um script shell bash combinado comwget .

A idéia é usar alguns dos recursos de URL da máquina de wayback:

http://web.archive.org/web/*/http://domain/*listará todas as páginas salvas de forma http://domain/recursiva. Ele pode ser usado para construir um índice de páginas para baixar e evitar heurísticas para detectar links em páginas da web. Para cada link, há também a data da primeira versão e da última versão.
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagelistará todas as versões do http://domain/pageano AAAA. Dentro dessa página, links específicos para versões podem ser encontrados (com data e hora exata)
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageretornará a página não modificada http://domain/pageno carimbo de data / hora especificado. Observe o token id_ .

Estes são os princípios básicos para criar um script para baixar tudo de um determinado domínio.

— user36520
fonte

7

Você realmente deve usar a API. As páginas de ajuda da Wikipedia archive.org/help/wayback_api.php são para editores e não para o público em geral. Portanto, essa página é focada na interface gráfica, que é substituída e inadequada para esta tarefa.

— Nemo

Provavelmente seria mais fácil dizer pegar o URL (curtir http://web.archive.org/web/19981202230410/http://www.google.com/) e adicionar id_ao final dos "números da data". Então, você obteria algo como http://web.archive.org/web/19981202230410id_/http://www.google.com/.

— haykam

1

Um script python também pode ser encontrada aqui: gist.github.com/ingamedeo/...

— Amedeo Baragiola

4

Existe uma ferramenta projetada especificamente para esse fim, Warrick: https://code.google.com/p/warrick/

É baseado no protocolo Memento.

— Nemo
fonte

3

Tanto quanto eu consegui usar isso (em maio de 2017), ele apenas recupera o que o archive.is contém e praticamente ignora o que está no archive.org; Ele também tenta obter documentos e imagens dos caches do Google / Yahoo, mas falha totalmente. Warrick foi clonado várias vezes no GitHub desde que o Google Code foi desativado, talvez existam versões melhores lá.

— Gwyneth Llewelyn

0

Você pode fazer isso facilmente com wget.

wget -rc --accept-regex '.*ROOT.*' START

Onde ROOTestá o URL raiz do site e STARTo URL inicial. Por exemplo:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Observe que você deve ignorar o quadro de agrupamento do arquivo da Web para STARTURL. Na maioria dos navegadores, você pode clicar com o botão direito do mouse na página e selecionar "Mostrar apenas este quadro".

— jcoffland
fonte