Como configurar o robots.txt para permitir tudo?


116

Meu robots.txtnas Ferramentas do Google para webmasters mostra os seguintes valores:

User-agent: *
Allow: /

O que isso significa? Não tenho conhecimento suficiente sobre isso, então procuro sua ajuda. Quero permitir que todos os robôs rastreiem meu site, esta é a configuração correta?


Permitir não é compreendido por todos os rastreadores da web, use rejeitar: (ou seja, sem url após:). É mais seguro (ver: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Respostas:


153

Esse arquivo permitirá o acesso de todos os rastreadores

User-agent: *
Allow: /

Basicamente, isso permite que todos os agentes do usuário (o *) acessem todas as partes do site (o /).


11
Correto, a menos que você precise negar a parte permitida. Não há "permitir", então faça com que: "User-agent: * Disallow:" como mostrado aqui: robotstxt.org/robotstxt.html
vsdev

Existe uma parte de permissão. Verifique os documentos oficiais do Google developers.google.com/search/reference/robots_txt#allow
Hasan Sefa Ozalp

60

Se você deseja permitir que cada bot rastreie tudo, esta é a melhor maneira de especificá-lo em seu robots.txt:

User-agent: *
Disallow:

Observe que o Disallowcampo possui um valor vazio, o que significa de acordo com a especificação :

Qualquer valor vazio indica que todos os URLs podem ser recuperados.


Seu jeito (com em Allow: /vez de Disallow:) também funciona, mas Allownão faz parte da especificação original do robots.txt , então não é compatível com todos os bots (muitos dos mais populares oferecem suporte, como o Googlebot ). Dito isso, campos não reconhecidos devem ser ignorados, e para bots que não reconhecem Allow, o resultado seria o mesmo neste caso de qualquer maneira: se nada é proibido de ser rastreado (com Disallow), tudo pode ser rastreado.
No entanto, formalmente (de acordo com a especificação original) é um registro inválido, porque pelo menos um Disallowcampo é obrigatório:

Pelo menos um campo Disallow precisa estar presente em um registro.


17

Eu entendo que esta é uma pergunta bastante antiga e tem algumas respostas muito boas. Mas, aqui estão meus dois centavos por uma questão de integridade.

De acordo com a documentação oficial , existem quatro maneiras de permitir o acesso completo para robôs acessarem seu site.

Limpar \ limpo:

Especifique uma correspondência global com um segmento não permitido, conforme mencionado por @unor. Então você se /robots.txtparece com isso.

User-agent: *
Disallow:

O hack:

Crie um /robots.txtarquivo sem conteúdo. Qual será o padrão para permitir todos para todos os tipos de Bots.

Eu não me importo assim:

Não crie um /robots.txtcompletamente. Que deve produzir exatamente os mesmos resultados que os dois anteriores.

O feio:

A partir da documentação dos robôs para metatags , você pode usar a seguinte metatag em todas as páginas do seu site para informar Botsque essas páginas não devem ser indexadas.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Para que isso seja aplicado a todo o seu site, você terá que adicionar esta metatag para todas as suas páginas. E essa tag deve ser colocada estritamente sob a HEADtag da página. Mais sobre esta metatag aqui .


Sem robots.txt e Wordpress é uma combinação ruim, porque o WordPress gera um robots.txt virtual. A menos que você esteja satisfeito com o que o WordPress gera.
Jesper

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.