Eu tenho algumas páginas no meu site das quais quero manter os mecanismos de pesquisa afastados, por isso os desautorizei no meu robots.txt
arquivo assim:
User-Agent: *
Disallow: /email
No entanto, notei recentemente que o Google ainda retorna links para essas páginas nos resultados de pesquisa. Por que isso acontece e como posso impedi-lo?
Fundo:
Há vários anos, criei um site simples para um clube em que um parente estava envolvido. Eles queriam ter links de e-mail em suas páginas, para tentar impedir que esses endereços acabassem com muitos listas de spam, em vez de usar mailto:
links diretos , fiz com que esses links apontassem para um simples script de armadilha de redirecionador / coletor de endereços em execução no meu próprio site. Esse script retornaria um redirecionamento 301 para o mailto:
URL real ou, se ele detectasse um padrão de acesso suspeito, uma página contendo muitos endereços de email falsos aleatórios e links para mais dessas páginas. Para manter os robôs de pesquisa legítimos longe da interceptação, configurei a robots.txt
regra mostrada acima, proibindo todo o espaço dos links de redirecionador legítimo e das páginas de interceptação.
Recentemente, no entanto, uma das pessoas do clube pesquisou o nome do Google e ficou bastante surpresa quando um dos resultados da primeira página foi um link para o script de redirecionador, com um título que consistia no endereço de e-mail seguido pelo meu nome. Obviamente, eles imediatamente me enviaram um e-mail e queriam saber como obter seu endereço fora do índice do Google. Fiquei bastante surpreso também, pois não fazia ideia de que o Google indexaria esses URLs, aparentemente violando minha robots.txt
regra.
Consegui enviar uma solicitação de remoção ao Google e parece ter funcionado, mas eu gostaria de saber por que e como o Google está contornando robots.txt
isso e como garantir que nenhuma das páginas não permitidas apareça nas suas Procurar Resultados.
Ps. Na verdade, descobri uma possível explicação e solução, que postarei abaixo, enquanto preparava essa pergunta, mas pensei em perguntar de qualquer maneira , caso outra pessoa possa ter o mesmo problema. Por favor, sinta-se livre para postar suas próprias respostas. Eu também estaria interessado em saber se outros mecanismos de pesquisa também fazem isso e se as mesmas soluções funcionam para eles também.
robots.txt
arquivo é como um pequeno sinal de "Não ultrapasse" ao lado da entrada de alguém. Não é mágica, e (a menos que um visitante a procure explicitamente) eles podem passear pela sua propriedade sem serem afetados pela existência dela. Existem equivalentes na Internet de holofotes e cercas de arame farpado, mas se é isso que você quer,robots.txt
não é.