Existem realmente duas questões aqui:
- O
robots.txt
site em seu site não permitirá (bloquear) que o Wayback rastreie seu site.
- O Wayback rastreará seu site.
Para o ponto 1:
como já foi dito, a entrada correta para o robots.txt é:
User-agent: ia_archiver
Disallow:
Lembre-se de que pode demorar um pouco (talvez um bom tempo) para que o Wayback observe as alterações feitas no robots.txt.
Para verificar se o robots.txt
site permitirá que o Wayback rastreie seu site:
- Vá para este URL: https://archive.org/web/
- Na caixa na parte superior da página, digite o URL de uma página no seu site e clique no
"Browse History"
botão
- Ou, na caixa em "Salvar página agora" (atualmente próxima à parte inferior à direita), digite o URL de uma página no seu site e clique no
"Save Page"
botão.
Neste ponto, você deve ver 1 de 3 coisas:
- Você verá uma mensagem de erro indicando que o Wayback não pode acessar as páginas desse site devido ao "robots.txt".
- Você verá o "calendário" dos pontos de salvamento históricos da página em seu site. Nesse caso, você sabe que o Wayback NÃO está impedido de rastrear seu site.
- Ou você verá uma mensagem indicando que o Wayback não possui um arquivo dessa página e uma oferta para clicar em um link para adicionar a página ao Wayback. Também nesse caso, você sabe que o Wayback NÃO está impedido de rastrear seu site.
Agora, para o ponto 2:
O Wayback rastreará seu site?
Só porque você Permitir Wayback para rastrear o seu site, não significa que eles (sempre) irá rastrear o seu site.
De acordo com o Wayback FAQ (ênfase adicionada):
Muitos dos dados da Web arquivados são provenientes de nossos próprios rastreamentos ou dos rastreamentos da Alexa Internet. Nenhuma organização possui um "rastrear meu site agora!" processo de envio. Os rastreamentos do Internet Archive tendem a encontrar sites bem vinculados a outros sites . A melhor maneira de garantir que localizamos seu site é garantir que ele esteja incluído nos diretórios online e que sites semelhantes / relacionados sejam vinculados a você.
O Alexa Internet usa seus próprios métodos para descobrir sites a serem rastreados. Pode ser útil instalar a barra de ferramentas Alexa gratuita e visitar o site que você deseja rastrear para garantir que eles saibam disso.
Independentemente de quem está rastreando o site, você deve garantir que as regras 'robots.txt' do seu site e as diretivas de robôs META na página não digam aos rastreadores para evitar seu site.
Atualização: 09 de maio de 2017
Outros deixaram comentários / respostas indicando que o Archive.org não respeita mais o robots.txt. Talvez esse seja um "trabalho em andamento" e acabe sendo o caso, mas ainda não vi esse novo comportamento.
O argumento para isso parece vir deste artigo: Robots.txt: ROBOTS.TXT É UMA NOTA DE SUICÍDIO por archiveteam.org
. Embora essa página tenha pouco ou nada de bom a dizer sobre "Robots.txt", ela não menciona em nenhum lugar que o Archive.org não honre mais o robots.txt.
Observe também: esse artigo está hospedado archiveteam.org
, o que definitivamente não é archive.org
, e não tenho certeza de que exista alguma relação (oficial) entre archive.org
e archiveteam.org
.
De fato, esta página sobre a equipe de arquivamento parece declarar uma distinção entre e (ênfase adicionada):archive.org
archive.org
archiveteam.org
Formada em 2009, a equipe de arquivamento (que não deve ser confundida com a equipe de arquivamento do archive.org ) é um coletivo de arquivistas desonestos, dedicado a salvar cópias de sites que estão morrendo ou excluídos rapidamente por uma questão de história e patrimônio digital. ...
De qualquer forma, decidi tentar e descobri que, pelo menos nesse momento, o Archive.org AINDA honra o robots.txt:
- Encontrei um item aleatório no eBay: Item #: 131795294232
- Clique para ver os itens vendidos:
- A página "Itens vendidos" é aberta: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Copie o link para a área de transferência.
- Goto web.archive.org , e cole o link do eBay.
- Você verá que isso
archive.org
indica que a "Página não pode ser exibida devido ao robots.txt".
Então, neste momento, continuo não convencido, mas adoraria provar que estou errado ... seria ótimo se fosse verdade.