Perguntas com a marcação «web-crawlers»

Um programa de computador que acessa páginas da Web para várias finalidades (raspar conteúdo, fornecer aos mecanismos de pesquisa informações sobre seu site etc.)

4
Status do Ajax rastreável?
Vi que o Google tinha uma boa proposta / padrão para tornar os aplicativos Ajax rastreáveis, via #! (estrondo de hash). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Minhas perguntas são: Eles já estão usando essa "proposta" no mundo real? Outros mecanismos de pesquisa - o Bing especificamente, também estão usando ou planejando usá-lo?




2
As Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site
Este é o meu robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Mas as Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site: Encontramos um erro ao tentar acessar seu Sitemap. Verifique se o seu Sitemap segue nossas diretrizes …




1
Como funciona o "Noindex:" no robots.txt?
Encontrei este artigo nas minhas notícias de SEO hoje. Parece implicar que você pode usar Noindex:diretivas além das Disallow:diretivas padrão no robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que isso impediria os mecanismos de pesquisa de rastrear a página um e impediria a indexação da página dois. Esta diretiva robots.txt …

2
Permitir apenas que bots do Google e Bing rastreiem um site
Estou usando o seguinte arquivo robots.txt para um site: O objetivo é permitir que o googlebot e o bingbot acessem o site, exceto a página, /bedven/bedrijf/*e impeçam todos os outros bots de rastrearem o site. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: …

1
Combinar user-agents no robots.txt
Os user-agents podem ser listados juntos, seguidos por suas regras comuns em um robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/


1
Como o Google conseguiu rastrear minhas 403 páginas?
Eu tinha alguns arquivos particulares em um diretório na pasta da minha escola. Você pode ver que os arquivos existiam acessando myschool.edu/myusername/myfolder, mas tentando acessar os arquivos por meio de myschool.edu/myusername/myfolder/myfile.html retorna um erro 403. E, no entanto, o Google de alguma forma conseguiu pegar o conteúdo desses arquivos particulares …


2
Devemos abandonar o esquema de rastreamento AJAX?
Então agora o Google descontinuou o esquema de rastreamento AJAX . Eles dizem para não se incomodar em implementá-lo em novos sites, porque não é mais necessário, já que o Googlebot não tem problemas para assistir a conteúdo dinâmico. Devemos confiar imediatamente nessa afirmação, ou melhor, aderir ao padrão descontinuado …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.