Permitir apenas que bots do Google e Bing rastreiem um site

Estou usando o seguinte arquivo robots.txt para um site: O objetivo é permitir que o googlebot e o bingbot acessem o site, exceto a página, /bedven/bedrijf/*e impeçam todos os outros bots de rastrearem o site.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

A última regra User-agent: * Disallow: /proíbe o rastreamento de todos os bots de todas as páginas do site?

web-crawlers robots.txt

— Konsole
fonte

Toda essa tarefa me preocupa. Existem outros mecanismos de pesquisa e qualquer pessoa que os use não verá seu site. theeword.co.uk/info/search_engine_market diz que 4,99% da Internet não está nos seus mecanismos de pesquisa. Isso é muita gente. Um método melhor seria monitorar seu tráfego e verificar se algum bot realmente causa problemas e depois bloqueá-los especificamente.

— GKFX

Um bot mau comportamento poderia simplesmente ignorar totalmente a sua robots.txtde qualquer maneira

— Nick T

Realmente bots maus não se importam com robots.txt

— Osvaldo

@NickT, no mundo real, não faltam bots mal comportados que se seguem robots.txt, ou pelo menos a Disallow: /regra. Se seu site pessoal está sendo martelado, porque um programador de bots nunca considerou que o servidor pode ser um Raspberry Pi na extremidade errada de uma conexão de 256 kbit, uma exclusão geral como essa é útil.

— Mark

@Console por quê?

— o0 '.

Respostas:

O último registro (iniciado por User-agent: *) será seguido por todos os robôs educados que não se identificam como "googlebot", "google", "bingbot" ou "bing".
E sim, isso significa que eles não podem rastrear nada.

Você pode querer omitir o *no /bedven/bedrijf/*.
Na especificação robots.txt original, *não tem significado especial, é apenas um personagem como outro qualquer. Portanto, isso não permitiria o rastreamento de páginas que literalmente tenham o caractere *em seu URL.
Embora o Google não siga a especificação robots.txt a esse respeito, porque eles usam *como curinga para "qualquer sequência de caracteres", não é necessário para eles neste caso: /bedven/bedrijf/*e /bedven/bedrijf/significaria exatamente o mesmo: bloqueie todos os URLs cujo caminho começa com /bedven/bedrijf/.

E, finalmente, você pode reduzir seu robots.txt para dois registros, porque um registro pode ter várias User-agentlinhas :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— unor
fonte

Observe que o Google ignora a diretiva de atraso de rastreamento no robots.txt. Você deve configurá-lo nas Ferramentas do Google para webmasters.

— usar o seguinte código

-2

Bots, especialmente os ruins, podem ignorar o arquivo robots.txt. Portanto, não importa o que está escrito lá, alguns bots podem rastrear seu site.

— Atis Luguzs
fonte