Nota : Esta resposta está cada vez mais desatualizada.
O maior colaborador da coleção da Web do Internet Archive foi o Alexa Internet. O material que o Alexa rastreia para seus fins foi doado à IA alguns meses depois. Adicionar a regra de proibição mencionada na pergunta não afeta esses rastreamentos, mas o Wayback os honrará 'retroativamente' (negando o acesso, o material ainda estará no arquivo morto - você deve excluir o robô da Alexa se realmente quiser manter o material fora do Internet Archive).
Pode haver maneiras de afetar os rastreamentos de Alexa, mas não estou familiarizado com isso.
Desde que a IA desenvolveu seu próprio rastreador (Heritrix), eles começaram a fazer seus próprios rastreamentos, mas esses tendem a ser rastreados (eles fazem rastreamentos eleitorais para a Biblioteca do Congresso e fazem rastreamentos nacionais para França e Austrália etc.). Eles não se envolvem no tipo de rastreamento sustentado em escala mundial que o Google e o Alexa conduzem. O maior rastreamento da IA foi um projeto especial para rastrear 2 bilhões de páginas.
Como esses rastreamentos são operados com agendas derivadas de fatores específicos do projeto, você não pode afetar a frequência com que visitam o site ou se o visitam.
A única maneira de afetar diretamente como e quando o IA rastreia seu site é usar o serviço Archive-It . Esse serviço permite que você especifique rastreamentos personalizados. Os dados resultantes serão (eventualmente) incorporados à coleção da web da IA. No entanto, este é um serviço de assinatura paga .