Por que os resultados de pesquisa do Google incluem páginas não permitidas no robots.txt?

18

Eu tenho algumas páginas no meu site das quais quero manter os mecanismos de pesquisa afastados, por isso os desautorizei no meu robots.txtarquivo assim:

User-Agent: *
Disallow: /email

No entanto, notei recentemente que o Google ainda retorna links para essas páginas nos resultados de pesquisa. Por que isso acontece e como posso impedi-lo?

Fundo:

Há vários anos, criei um site simples para um clube em que um parente estava envolvido. Eles queriam ter links de e-mail em suas páginas, para tentar impedir que esses endereços acabassem com muitos listas de spam, em vez de usar mailto:links diretos , fiz com que esses links apontassem para um simples script de armadilha de redirecionador / coletor de endereços em execução no meu próprio site. Esse script retornaria um redirecionamento 301 para o mailto:URL real ou, se ele detectasse um padrão de acesso suspeito, uma página contendo muitos endereços de email falsos aleatórios e links para mais dessas páginas. Para manter os robôs de pesquisa legítimos longe da interceptação, configurei a robots.txtregra mostrada acima, proibindo todo o espaço dos links de redirecionador legítimo e das páginas de interceptação.

Recentemente, no entanto, uma das pessoas do clube pesquisou o nome do Google e ficou bastante surpresa quando um dos resultados da primeira página foi um link para o script de redirecionador, com um título que consistia no endereço de e-mail seguido pelo meu nome. Obviamente, eles imediatamente me enviaram um e-mail e queriam saber como obter seu endereço fora do índice do Google. Fiquei bastante surpreso também, pois não fazia ideia de que o Google indexaria esses URLs, aparentemente violando minha robots.txtregra.

Consegui enviar uma solicitação de remoção ao Google e parece ter funcionado, mas eu gostaria de saber por que e como o Google está contornando robots.txtisso e como garantir que nenhuma das páginas não permitidas apareça nas suas Procurar Resultados.

Ps. Na verdade, descobri uma possível explicação e solução, que postarei abaixo, enquanto preparava essa pergunta, mas pensei em perguntar de qualquer maneira , caso outra pessoa possa ter o mesmo problema. Por favor, sinta-se livre para postar suas próprias respostas. Eu também estaria interessado em saber se outros mecanismos de pesquisa também fazem isso e se as mesmas soluções funcionam para eles também.

google-search robots.txt

— Ilmari Karonen
fonte

11

"e como o Google está contornando meu robots.txt" Eu acho que você já sabe disso (ou como diabos você seria capaz de criar um site em primeiro lugar), mas no caso de algum tolo infeliz vagar por ... O robots.txtarquivo é como um pequeno sinal de "Não ultrapasse" ao lado da entrada de alguém. Não é mágica, e (a menos que um visitante a procure explicitamente) eles podem passear pela sua propriedade sem serem afetados pela existência dela. Existem equivalentes na Internet de holofotes e cercas de arame farpado, mas se é isso que você quer, robots.txtnão é.

— Tiro parta

25

Parece que o Google deliberadamente inclui URLs não permitidos em robots.txtseu índice se houver links para esses URLs de outras páginas que eles rastrearam. Para citar as páginas de ajuda das Ferramentas do Google para webmasters :

"Embora o Google não rastreie ou indexe o conteúdo de páginas bloqueadas pelo robots.txt, ainda podemos indexar os URLs se os encontrarmos em outras páginas da Web. Como resultado, o URL da página e, potencialmente, outros informações publicamente disponíveis, como texto âncora em links para o site ou o título do Open Directory Project (www.dmoz.org), podem aparecer nos resultados de pesquisa do Google. "

Aparentemente, o Google interpreta uma Disallowdiretiva robots.txtcomo uma proibição de rastrear a página, não de indexá- la. Suponho que seja tecnicamente uma interpretação válida, mesmo que chegue a regras que me advogam.

Em este artigo entrevista , Matt Cutts do Google dá um pouco mais fundo e não fornecer uma explicação razoável-soando por que eles fazem isso:

"Nos primeiros dias, muitos sites muito populares não queriam ser rastreados. Por exemplo, o eBay e o New York Times não permitiam nenhum mecanismo de pesquisa, ou pelo menos o Google não rastreava nenhuma página. A Biblioteca do Congresso tinha várias seções que diziam que você não tem permissão para rastrear com um mecanismo de pesquisa.Portanto, quando alguém veio ao Google e digitou no eBay, e nós não rastreamos o eBay e não podíamos devolvê-lo, parecia um pouco abaixo do ideal. Portanto, o compromisso que decidimos criar foi que não rastrearíamos você a partir do robots.txt, mas poderíamos retornar a referência de URL que vimos ".

A solução recomendada nessas duas páginas é adicionar uma noindexmetatag às páginas que você não deseja indexar. (O X-Robots-Tagcabeçalho HTTP também deve funcionar para páginas que não são HTML. Porém, não tenho certeza se funciona em redirecionamentos.) Paradoxalmente, isso significa que você precisa permitir que o Googlebot rastreie essas páginas (removendo-as robots.txtcompletamente ou adicionando um conjunto de regras separado e mais permissivo para o Googlebot), pois, caso contrário, não poderá ver a metatag em primeiro lugar.

Editei meu script de redirecionamento / trap spider para enviar a metatag e o X-Robots-Tagcabeçalho com o valor noindex,nofollowe permiti ao Googlebot rastrear o URL do script no meu robots.txt. Vamos ver se funciona quando o Google indexar novamente meu site.

— Ilmari Karonen
fonte

5

É verdade que, embora isso deva impedir o Google (e os bons bots) de rastrear essas páginas e ler seu conteúdo, eles ainda podem mostrar um link somente de URL nos SERPs, se estiverem vinculados, no formulário:

Link somente URL nos SERPs do Google

Como você pode ver, não há título ou descrição, é literalmente apenas o URL. Naturalmente, esses tipos de resultados geralmente são omitidos nos SERPs, a menos que você os procure explicitamente.

E, como você mencionou na sua resposta, se você não deseja que o URL apareça nos SERPs, é necessário permitir robôs, mas inclua uma metatag noindex.

— Sr. White
fonte