Como (des) permitir adequadamente o bot do archive.org? As coisas mudaram, se sim, quando?

10

Eu tenho um site que geralmente não quero que seja indexado pelos mecanismos de busca, mas quero preservá-lo por toda a eternidade em archive.org. Então, meu robots.txtcomeço com isso:

User-agent: *
Disallow: /

Hoje, de acordo com o archive.org , tenho que adicionar o seguinte no meu robots.txtpara permitir seus bots:

User-agent: ia_archiver
Disallow:

Mas, eu já tinha feito o que eles indicaram há alguns anos, pelo menos, adicionei o seguinte:

User-agent: archive.org_bot
Disallow:

Depois, há outra fonte alegando que você deve adicionar os dois Disallows acima , além de outro:

User-agent: ia_archiver-web.archive.org 
Disallow:

Observe que você precisa colocar Disallow: /se não quiser que o bot arquive seu site.

Houve uma mudança no bot de IA? Se assim for, quando?

Qual é o caminho recomendado? Devo apenas permitir os três por enquanto e torcer para que a IA não mude seu nome de bot novamente no futuro?

web-crawlers robots.txt internet-archive

— kqw
fonte

Eu só estava ciente de ia_archiver. Os outros são uma surpresa para mim. Você tem links para isso? A razão pela qual pergunto é que o archive.org visita meu site de qualquer maneira e tive que bloqueá-los pelo endereço IP. Você também mencionar que você Não quero permitir que archive.org, mas, em seguida, falar sobre bloqueá-lo. Eu só quero ser mais claro sobre isso e os links podem ajudar a todos nós. Desde já, obrigado!

— Closetnoc 25/10/14

Atualizado a pergunta. Espero que esteja mais claro agora. A versão minúscula: eu não quero bots de mecanismos de pesquisa neste site, quero bots de archive.org. Mas talvez eu devesse reverter a pergunta, já que é isso que a maioria das pessoas está procurando?

— kqw

Na verdade, se você não usar nenhum desses itens, estará autorizando o archive.org, desde que não esteja bloqueando uma declaração geral.

— closetnoc

O uso de apenas "ia_archiver" também deve bloquear "ia_archiver-web.archive.org", para que o último pareça desnecessário (desde que esse bot siga o padrão).

— MrWhite

Você vê o bot ia-archiver (ou archive.org_bot) em seus registros de acesso?

— MrWhite

9

Atualização : Como o @KevinFegan observa nos comentários, a documentação deles foi alterada. A parte abaixo descreve como o Internet Archive o tratou no passado (pelo menos em 2014).

Perguntas frequentes Como posso excluir as páginas do meu site da Wayback Machine? refere-se a Remoção de documentos da máquina Wayback , que documenta que seu bot é chamado ia_archiver.

Portanto, esse registro deve permitir que o bot deles rastreie todo o site:

User-agent: ia_archiver
Disallow:

— unor
fonte

A ordem dos grupos não deve importar. O agente do usuário mais específico (ou seja, o mais longo) que corresponder é aquele que vencer. O *grupo corresponde apenas quando nenhum outro grupo corresponde.

— MrWhite

@ w3d: Você está certo, eu removi esta parte. Obrigado pela informação :)

— unor 26/10

11

Aparentemente, isso mudou com o tempo. Não consigo encontrar "ia_archiver" na página de perguntas frequentes que você forneceu e nesta página do Blog Archive.org de 25 de abril de 2017, Mark Graham diz: O agente do usuário "ia_archiver" é usado pelo Alexa Internet, não pelo Internet Archive.

— 21917 Kevin Fegan

@ KevinFegan: Obrigado pelo seu aviso! Atualizei minha resposta para criar um link para versões arquivadas da documentação que continha o nome.

— Unor

Eu gosto de como eles propositadamente complicam as coisas para que possam fugir!

— Ultralisk

5

Existem realmente duas questões aqui:

O robots.txtsite em seu site não permitirá (bloquear) que o Wayback rastreie seu site.
O Wayback rastreará seu site.

Para o ponto 1:
como já foi dito, a entrada correta para o robots.txt é:

User-agent: ia_archiver
Disallow:

Lembre-se de que pode demorar um pouco (talvez um bom tempo) para que o Wayback observe as alterações feitas no robots.txt.

Para verificar se o robots.txtsite permitirá que o Wayback rastreie seu site:

Vá para este URL: https://archive.org/web/
Na caixa na parte superior da página, digite o URL de uma página no seu site e clique no "Browse History"botão
Ou, na caixa em "Salvar página agora" (atualmente próxima à parte inferior à direita), digite o URL de uma página no seu site e clique no "Save Page"botão.

Neste ponto, você deve ver 1 de 3 coisas:

Você verá uma mensagem de erro indicando que o Wayback não pode acessar as páginas desse site devido ao "robots.txt".
Você verá o "calendário" dos pontos de salvamento históricos da página em seu site. Nesse caso, você sabe que o Wayback NÃO está impedido de rastrear seu site.
Ou você verá uma mensagem indicando que o Wayback não possui um arquivo dessa página e uma oferta para clicar em um link para adicionar a página ao Wayback. Também nesse caso, você sabe que o Wayback NÃO está impedido de rastrear seu site.

Agora, para o ponto 2:

O Wayback rastreará seu site?

Só porque você Permitir Wayback para rastrear o seu site, não significa que eles (sempre) irá rastrear o seu site.

De acordo com o Wayback FAQ (ênfase adicionada):

Como posso incluir meu site na Wayback Machine?

Muitos dos dados da Web arquivados são provenientes de nossos próprios rastreamentos ou dos rastreamentos da Alexa Internet. Nenhuma organização possui um "rastrear meu site agora!" processo de envio. Os rastreamentos do Internet Archive tendem a encontrar sites bem vinculados a outros sites . A melhor maneira de garantir que localizamos seu site é garantir que ele esteja incluído nos diretórios online e que sites semelhantes / relacionados sejam vinculados a você.

O Alexa Internet usa seus próprios métodos para descobrir sites a serem rastreados. Pode ser útil instalar a barra de ferramentas Alexa gratuita e visitar o site que você deseja rastrear para garantir que eles saibam disso.

Independentemente de quem está rastreando o site, você deve garantir que as regras 'robots.txt' do seu site e as diretivas de robôs META na página não digam aos rastreadores para evitar seu site.

Atualização: 09 de maio de 2017

Outros deixaram comentários / respostas indicando que o Archive.org não respeita mais o robots.txt. Talvez esse seja um "trabalho em andamento" e acabe sendo o caso, mas ainda não vi esse novo comportamento.

O argumento para isso parece vir deste artigo: Robots.txt: ROBOTS.TXT É UMA NOTA DE SUICÍDIO por archiveteam.org. Embora essa página tenha pouco ou nada de bom a dizer sobre "Robots.txt", ela não menciona em nenhum lugar que o Archive.org não honre mais o robots.txt.

Observe também: esse artigo está hospedado archiveteam.org, o que definitivamente não é archive.org, e não tenho certeza de que exista alguma relação (oficial) entre archive.orge archiveteam.org.

De fato, esta página sobre a equipe de arquivamento parece declarar uma distinção entre e (ênfase adicionada):archive.org archive.orgarchiveteam.org

Formada em 2009, a equipe de arquivamento (que não deve ser confundida com a equipe de arquivamento do archive.org ) é um coletivo de arquivistas desonestos, dedicado a salvar cópias de sites que estão morrendo ou excluídos rapidamente por uma questão de história e patrimônio digital. ...

De qualquer forma, decidi tentar e descobri que, pelo menos nesse momento, o Archive.org AINDA honra o robots.txt:

Encontrei um item aleatório no eBay: Item #: 131795294232
Clique para ver os itens vendidos:

A página "Itens vendidos" é aberta: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Copie o link para a área de transferência.
Goto web.archive.org , e cole o link do eBay.
Você verá que isso archive.orgindica que a "Página não pode ser exibida devido ao robots.txt".

Então, neste momento, continuo não convencido, mas adoraria provar que estou errado ... seria ótimo se fosse verdade.

— Kevin Fegan
fonte

Bloqueio de archive.org com robots.txt não funciona mais:

— wortwart

@wortwart - Seria ótimo se fosse assim (veja a atualização que adicionei à minha resposta). Você tem links para informações sobre isso?

— Kevin Fegan

Claro: blog.archive.org/2017/04/17/… "Há alguns meses, paramos de nos referir aos arquivos robots.txt nos sites militares e do governo dos EUA (...) Agora, estamos procurando fazer isso de maneira mais ampla. "

— Wortwart

4

Atualização 2017

O bot de arquivamento agora não se importa com o seu robots.txt.

Se você realmente deseja bloqueá-lo, envie um e-mail para eles de acordo com esta página ou bloqueie o endereço IP via htaccess.

— Goyllo
fonte

2

Veja a atualização de maio de 2017 para a minha resposta: Como corretamente (des) permitir que o bot archive.org ...? . O bot Archive ainda se preocupa com o arquivo robots.txt, exceto sites do governo. Observe que o artigo que você mencionou foi de www.archiveteam.org, que não está relacionado ao Archive.org. --->

— Kevin Fegan

---> Embora essa página tenha pouco ou nada de bom a dizer sobre "Robots.txt", ela não menciona em nenhum lugar que o Archive.org não respeite mais o robots.txt. O artigo relevante do Archive.org é: Robots.txt, destinado a mecanismos de pesquisa, não funciona bem para arquivos da web . "Há alguns meses, paramos de nos referir aos arquivos robots.txt nos sites militares e do governo dos EUA (...) Agora, estamos procurando fazer isso de maneira mais ampla".

— Kevin Fegan

Sim. Agora o Archive ignora totalmente os pedidos de remoção.

— Ultralisk

3

A entrada robots.txt ia_archiver Disallow (com o "/") deve ser adequada à necessidade que você descreve (para "preservar por toda a eternidade", mas ainda não publicamente).

Acabei de fazer um teste rápido, comentando a entrada ia_archiver Disallow para um site que o possuía há pelo menos 10 anos. Depois procurei o site em archive.org/web, e ele apareceu em coletar em 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 e 2017! Isso significa que o Archive.org nunca honrou estritamente o que os outros pensavam ser uma declaração de "não arquivar" durante esses anos, apenas não estava expondo as cópias arquivadas.

— Mike
fonte

2

"ia_archiver" agora é (ab) usado pelo Alexa, algumas fontes dizem: 1 , 2 .
O Archive.org agora (2018) NÃO respeita mais o "robots.txt". 3 Não apenas para páginas mil / gov, mas para todas as páginas. Como experimentei meu próprio site privado, que possui e possui um robots.txt com exclusão de ia desde 2012; e agora de repente descobri que foi arrastado e salvo por eles todos os anos e agora toda a história é visível. É uma sensação de ser traído. > :-(

— Carl
fonte

1

Eu tentei o robots.txtmétodo e não funcionou. Então, entrei em contato com o site pelo email info@archive.org:

Olá,

Você pode remover meu site pessoal dimitarnestorov.com do seu arquivo?

Obrigado!

Dimitar

E eu recebi a seguinte resposta:

Olá,

O Internet Archive pode excluir sites da Wayback Machine (web.archive.org), mas solicitamos respeitosamente que você nos ajude a verificar se você é o proprietário do site ou o autor do conteúdo de dimitarnestorov.com, seguindo um destes procedimentos:

(Nota: algumas dessas opções podem estar relacionadas ao conteúdo localizado nas capturas anteriores do Wayback Machine e / ou na documentação que você pode ter relacionado ao período especificado.)

publique sua solicitação na versão atual do site (e envie-nos um link).

envie sua solicitação do contato de email principal listado no site e mostre onde ele pode ser localizado (se houver algum).

envie uma solicitação do e-mail do registrante (se estiver publicamente visível em uma pesquisa WHOIS à qual você pode nos vincular) ou do e-mail do webmaster listado no site.

indique-nos onde suas informações pessoais (nome, ponto de contato, imagem de si mesmo) aparecem no site de uma maneira que o identifique como proprietário do site ou autor do conteúdo que você deseja excluir - nesse caso, solicitamos para verificar sua identidade através de uma digitalização de uma identificação com foto válida (informações confidenciais como data de nascimento, endereço ou número de telefone podem ser editadas).

encaminhar-nos a comunicação de uma empresa de hospedagem ou registrador endereçada a você como proprietário do domínio.

(Nota: a simples menção do nome / nome de usuário de alguém e / ou um hiperlink / redirecionamento entre sites / páginas / contas em si normalmente não é suficiente para excluir os arquivos.)

Se nenhuma dessas opções estiver disponível, informe-nos em uma resposta a este e-mail.

Ficaríamos gratos se você nos ajudasse a preservar o máximo possível do arquivo. Portanto, informe-nos se há apenas URLs ou diretórios específicos sobre os quais você está preocupado, para que possamos deixar o restante dos arquivos disponíveis.

Como você deve saber, o Internet Archive é uma biblioteca digital sem fins lucrativos, que busca manter através da Wayback Machine um registro histórico da Internet livremente acessível. O material dos arquivos não é explorado pelo Internet Archive para fins comerciais.

Equipe de arquivamento da Internet

Criei wayback-removal-request.htmlcom o seguinte conteúdo (nem mesmo HTML válido):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Carreguei e respondi ao email com o URL a partir do qual a página estava disponível e, mais tarde, recebi a seguinte resposta:

Olá,

O site / URL mencionado no seu e-mail abaixo foi submetido para exclusão da Wayback Machine em http://www.archive.org (em relação a todas as capturas anteriores):

dimitarnestorov.com

Aguarde até um dia para que as partes automatizadas do processo sigam seu curso e para que as alterações entrem em vigor.

Equipe de arquivamento da Internet

Quando verifiquei algumas horas depois, meu site foi removido.

— Dimitar Nestorov
fonte