Como desaprovo um diretório inteiro com o robots.txt?


19

Atualmente, tenho dois sites em que estou trabalhando: um carrinho de compras e outro comprador. Ambos estão com o mesmo nome de domínio. Por exemplo,

http://example.com/first_url 
http://example.com/second_url 

Ambos os URLs têm toneladas de páginas abaixo deles

http://example.com/first_url/product1
http://example.com/first_url/product2 
http://example.com/first_url/product3

http://example.com/second_url/product1
http://example.com/second_url/product2 
http://example.com/second_url/product3

Como desaprovo o URL principal /first_urle /second_urltambém todos os subpáginas e subdiretórios? Eu estava pensando algo assim, mas não sei se isso funciona ou não e se era a sintaxe correta

Disallow: /first_url/*/
Disallow: /second_url/*/

1
Eu acho que a sua sintaxe está certa, mas não tenho certeza sobre o extra / #

Respostas:


26

Você não precisa da barra final para bloquear esses diretórios. Isso funcionará:

Disallow: /first_url/*
Disallow: /second_url/*

Esta página de ajuda do Google cobre isso muito bem.


7
Você pode simplesmente fazer "Disallow: / first_url". O curinga à direita é ignorado. De acordo com developers.google.com/webmasters/control-crawl-index/docs/…
Evgenii

Você precisa Disallow: / url / * para corresponder a coisas como example.com/url/test?test=1
Gareth Daine

-1

Você pode usar isso como seu padrão robots.txt:

User-agent: *
Disallow: first_url/*
Disallow: second_url/*

A estrela permitirá que tudo sob essa categoria seja desaprovado. Você pode até proibir uma coisa específica nessa categoria, digitando esse URL específico.


4
Isso não é diferente da resposta aceita, exceto a falta da barra inicial. As regras de proibição no robots.txt devem começar com uma barra. É assim que todos os exemplos estão na documentação
Stephen Ostermiller
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.