Webmasters robots.txt

5

Posso invocar o Google para verificar meu robots.txt?

Li as respostas nesta pergunta, mas elas ainda deixam minha pergunta em aberto: o Google armazena em cache o robots.txt? Não encontrei uma maneira nas Ferramentas do Google para webmasters para invocar um novo download do meu robots.txt . Por algum erro, meu robots.txt foi substituído por: User-agent: * Disallow: …

11 google google-search-console robots.txt

3

O Google Preview obedece ao Robots.txt?

Porque com certeza parece. Para meus sites, proibimos o diretório de imagens e as visualizações são todas imagens ausentes, o que faz com que o site pareça instável. É esse o caso e existe uma maneira de permitir que apenas o bot de visualização acesse as imagens usando o robots.txt? …

11 google robots.txt

3

Um índice de sitemap pode conter outros índices de sitemap?

Eu tenho um site bilíngue com um índice de mapa do site para cada idioma vinculado a vários mapas de site diferentes (um para vídeos, um para conteúdo estático e outro para artigos). Gostaria de apresentar outro sitemap que vincule os índices do sitemap, para poder vincular esse sitemap no …

11 google sitemap robots.txt

1

Como funciona o "Noindex:" no robots.txt?

Encontrei este artigo nas minhas notícias de SEO hoje. Parece implicar que você pode usar Noindex:diretivas além das Disallow:diretivas padrão no robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que isso impediria os mecanismos de pesquisa de rastrear a página um e impediria a indexação da página dois. Esta diretiva robots.txt …

10 web-crawlers robots.txt googlebot noindex

2

Permitir apenas que bots do Google e Bing rastreiem um site

Estou usando o seguinte arquivo robots.txt para um site: O objetivo é permitir que o googlebot e o bingbot acessem o site, exceto a página, /bedven/bedrijf/*e impeçam todos os outros bots de rastrearem o site. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: …

10 web-crawlers robots.txt

1

Combinar user-agents no robots.txt

Os user-agents podem ser listados juntos, seguidos por suas regras comuns em um robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

3

Como posso usar o robots.txt para proibir apenas subdomínios?

Minha base de código é compartilhado entre vários ambientes (ao vivo, estadiamento, dev) e sub-domínios ( staging.example, dev.example, etc.) e apenas dois devem ser autorizados a ser rastreado (ie. www.exampleE example). Normalmente eu modificaria /robots.txte adicionaria Disallow: /, mas devido à base de código compartilhada, não posso modificar /robots.txtsem afetar …

10 domains subdomain robots.txt multi-subdomains

6

Como (des) permitir adequadamente o bot do archive.org? As coisas mudaram, se sim, quando?

Eu tenho um site que geralmente não quero que seja indexado pelos mecanismos de busca, mas quero preservá-lo por toda a eternidade em archive.org. Então, meu robots.txtcomeço com isso: User-agent: * Disallow: / Hoje, de acordo com o archive.org , tenho que adicionar o seguinte no meu robots.txtpara permitir seus …

10 web-crawlers robots.txt internet-archive

10

Necessidade de impedir que os robôs matem meu servidor da Web

Estou tendo problemas com bot EXTREME em alguns sites da minha conta de hospedagem. Os bots utilizam mais de 98% dos recursos da minha CPU e 99% da minha largura de banda para toda a minha conta de hospedagem. Esses bots estão gerando mais de 1 GB de tráfego por …

9 php htaccess robots.txt

1

Devo bloquear as páginas de arquivo do Wordpress nos mecanismos de pesquisa?

Uso WordPress e /sample-post/URLs para minhas postagens e /yyyy/mm/para os arquivos. O Google indexou o site completamente. Como os arquivos atualmente exibem postagens completas, achei que não deveria permitir que o Google indexasse as páginas de arquivamento, pois elas contêm as postagens completas e esse conteúdo será duplicado. Assim, o …

9 seo wordpress robots.txt duplicate-content google-index

4

Os robôs negados pelo domínio ainda estão listados nos resultados da pesquisa

Portanto, em todos os sites que não são voltados para pesquisas, aplicamos um arquivo robots.txt (por Como excluir um site dos resultados de pesquisa do Google em tempo real? Ou qualquer outra pergunta semelhante). No entanto, se os termos de pesquisa forem suficientemente específicos, o próprio domínio poderá ser encontrado …

9 seo robots.txt

3

Ao mover um site por meio de um redirecionamento 301, você deve configurar um robots.txt que não permite que robôs rastreiem o endereço antigo?

Um site em que estou trabalhando moveu um subdomínio para outro subdomínio por meio de um redirecionamento 301. No entanto, ao verificar o robots.txt do subdomínio antigo, ele possui um robots.txt que não permite que os rastreadores da Web do mecanismo de pesquisa o rastreiem. Este é o movimento certo? …

8 seo redirects robots.txt

5

Devemos modificar nosso robots.txt do Joomla após o anúncio do Google sobre rastreamento de CSS e JavaScript?

Encontrei um comunicado do Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html Afirma: Para renderização e indexação ideais, nossa nova diretriz especifica que você deve permitir ao Googlebot acesso aos arquivos JavaScript, CSS e de imagem que suas páginas usam. Isso fornece renderização e indexação ideais para o seu site. A proibição de rastrear arquivos Javascript …

8 seo google-search-console robots.txt joomla

4

Robots.txt vs Sitemap - Quem ganha em um conflito

Se eu bloquear o diretório / foo no robots.txt, mas meu mapa do site xml contiver URLs com / foo, os URLs no mapa do site serão escolhidos pelo Google e outros mecanismos de pesquisa? Em outras palavras, o mapa do site supera o robots.txt? Acho que sim, mas não …

8 robots.txt xml-sitemap

2

Qual é a maneira correta de lidar com Permitir e Não Permitir no robots.txt?

Eu executo um rastreador da Web em larga escala. Nós tentamos muito operar o rastreador dentro dos padrões da comunidade aceitos, e isso inclui o respeito ao robots.txt. Recebemos muito poucas reclamações sobre o rastreador, mas quando fazemos a maioria, tratamos do tratamento do robots.txt. Na maioria das vezes, o …

8 robots.txt

Perguntas com a marcação «robots.txt»