Como funciona o "Noindex:" no robots.txt?

Encontrei este artigo nas minhas notícias de SEO hoje. Parece implicar que você pode usar Noindex:diretivas além das Disallow:diretivas padrão no robots.txt .

Disallow: /page-one.html
Noindex: /page-two.html

Parece que isso impediria os mecanismos de pesquisa de rastrear a página um e impediria a indexação da página dois.

Esta diretiva robots.txt é compatível com o Google e outros mecanismos de pesquisa? Funciona? Está documentado?

— Stephen Ostermiller
fonte

Não sei ... mas isso pode ser muito útil para alguns. Além disso, gostaria de ver o mapa do site expandido para ser mais comunicativo. Entre robôs e sitemaps, essa deve ser uma oportunidade de ouro para se comunicar com os mecanismos de pesquisa e outras pessoas sobre um site. Também sou a favor de uma oportunidade baseada em texto para informar os mecanismos de pesquisa sobre o site de uma maneira diferente, além de estar disponível em pesquisas como a página Sobre, como se você tivesse a chance de conversar diretamente com um revisor de sites do Google. Poderia salvar algumas dores de coração e mal-entendidos. A chance de dizer Ooopppsss, eu brinquei- Desculpe.

— Closetnoc 10/09/2015

Tenho a impressão de que o disallowGoogle descobre links nas páginas pai e filho, se houver algum. Embora noindexsimplesmente pare a página sendo listada, ela não para a descoberta, enquanto a proibição o faz.

— Simon Hayter

@SimonHayter Eu sei que é assim que nofollowfunciona para meta tags. Seria bom saber se esse também é o caso do robots.txt .

— Stephen Ostermiller

Hey @StephenOstermiller, não apenas meta tags, é o mesmo para <a rel="no-follow">também. Não vejo razão para que isso seja tratado de maneira diferente. Obviamente, isso não é oficial e é recomendado por John Muller para não usá-lo no robots.txt, mas, além do seu tweet, não consegui encontrar muita informação sobre ele.

— Simon Hayter

Vale ressaltar que o Google não sinaliza mais a Noindexdiretiva nos robots.txtarquivos como um erro.

— Aran

O Google costumava oferecer suporte não oficial a uma Noindexdiretiva no robots.txt, no entanto, em 2019, eles anunciaram que a diretiva não funcionaria mais.

Aqui está o que o Google John Mueller diz sobre Noindex:em robots.txt :

Costumávamos oferecer suporte à diretiva sem índice no robots.txt como um recurso experimental. Mas é algo em que eu não confiaria. E não acho que outros mecanismos de pesquisa estejam usando isso.

Antes de o Google anunciar que o recurso foi descontinuado, o deepcrawl.com fez alguns testes e descobriu que:

Antes de 2019, ainda funcionava com o Google
Impediu a exibição de URLs no índice de pesquisa
Os URLs que não foram indexados no robots.txt foram marcados como tal no Google Search Console

Dado que o Google interrompeu o recurso, ele não deve mais ser usado.

Em vez disso, use metatags de robôs que sejam bem suportadas e documentadas para impedir a indexação:

<meta name="robots" content="noindex" />

— Stephen Ostermiller
fonte