Webmasters web-crawlers

4

Vi que o Google tinha uma boa proposta / padrão para tornar os aplicativos Ajax rastreáveis, via #! (estrondo de hash). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Minhas perguntas são: Eles já estão usando essa "proposta" no mundo real? Outros mecanismos de pesquisa - o Bing especificamente, também estão usando ou planejando usá-lo?

12 seo google ajax web-crawlers

4

Os arquivos robots.txt e sitemap.xml podem ser dinâmicos por meio de um redirecionamento .htaccess?

Eu tenho um site multilíngue e de vários domínios. Ele é executado através de uma instalação exclusiva do CMS (Drupal), então eu tenho um único diretório raiz. Portanto, se eu tenho um robots.txt estático, só posso mostrar os arquivos para um único domínio, tanto quanto eu sei. Eu poderia colocar …

12 htaccess redirects sitemap web-crawlers

4

O Google não rastreia arquivos CDN

Percebi que as Ferramentas do Google para webmasters estão relatando muitos recursos bloqueados no meu site. No momento, todos os "recursos bloqueados" são .css, .js e imagens (.jpg, .png) que eu sirvo da Cloudfront CDN. Passei muito tempo testando e tentando descobrir por que o Google não rastreia esses arquivos …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

2

Quais robôs realmente valem a pena ser incluídos em um site?

Depois de escrever vários bots e ver a enorme quantidade de bots aleatórios que rastreiam um site, eu me pergunto como webmaster, o que realmente vale a pena incluir em um site? Meu primeiro pensamento é que permitir bots no site pode potencialmente trazer tráfego real para ele. Existe algum …

11 seo web-crawlers robots.txt googlebot bingbot

2

As Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site

Este é o meu robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Mas as Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site: Encontramos um erro ao tentar acessar seu Sitemap. Verifique se o seu Sitemap segue nossas diretrizes …

11 google-search-console robots.txt web-crawlers

4

O bot de clique do Adsense está bombardeando meu site

Eu tenho um site que recebe cerca de 7.000 a 10.000 visualizações de página por dia agora. Começando por volta da 01:00 em 1/7/12, notei que a CTR estava aumentando dramaticamente. Esses cliques seriam creditados e depois creditados logo depois. Então, eles eram obviamente cliques fraudulentos. No dia seguinte, tive …

11 google-adsense advertising web-crawlers botattack

6

Qual é a melhor maneira de excluir bots da contagem de visualizações?

Meu site está contando visualizações de visitantes em determinadas páginas. Percebi que o Google e outros Bots estão "clicando" no meu site como loucos e algumas páginas têm contagens de visualizações irrealistas (em comparação com as produzidas por humanos). Estou pedindo as melhores práticas para excluir esses bots da minha …

11 php mysql web-crawlers best-practices

1

Googlebot enviando milhares de solicitações ao nosso localizador de mapas e usando a cota da API

Temos uma página de localizador de lojas no site de nossos clientes. O usuário final digita seu código postal e um raio de pesquisa e exibimos resultados em um mapa do Google. Recentemente, começamos a perceber que o site estava atingindo o limite de busca gratuita de mapas (aproximadamente 25.000 …

10 web-crawlers google-maps

1

Como funciona o "Noindex:" no robots.txt?

Encontrei este artigo nas minhas notícias de SEO hoje. Parece implicar que você pode usar Noindex:diretivas além das Disallow:diretivas padrão no robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que isso impediria os mecanismos de pesquisa de rastrear a página um e impediria a indexação da página dois. Esta diretiva robots.txt …

10 web-crawlers robots.txt googlebot noindex

2

Permitir apenas que bots do Google e Bing rastreiem um site

Estou usando o seguinte arquivo robots.txt para um site: O objetivo é permitir que o googlebot e o bingbot acessem o site, exceto a página, /bedven/bedrijf/*e impeçam todos os outros bots de rastrearem o site. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: …

10 web-crawlers robots.txt

1

Combinar user-agents no robots.txt

Os user-agents podem ser listados juntos, seguidos por suas regras comuns em um robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

2

Sinal de adição na frente dos URLs nos agentes do usuário

Eu corro um pequeno rastreador da web e tive que decidir sobre qual agente de usuário usar para ele. As listas de agentes de rastreadores e a Wikipedia sugerem o seguinte formato: examplebot/1.2 (+http://www.example.com/bot.html) No entanto, alguns bots omitem o sinal de adição na frente do URL. E me pergunto …

10 web-crawlers http user-agent

1

Como o Google conseguiu rastrear minhas 403 páginas?

Eu tinha alguns arquivos particulares em um diretório na pasta da minha escola. Você pode ver que os arquivos existiam acessando myschool.edu/myusername/myfolder, mas tentando acessar os arquivos por meio de myschool.edu/myusername/myfolder/myfile.html retorna um erro 403. E, no entanto, o Google de alguma forma conseguiu pegar o conteúdo desses arquivos particulares …

10 web-crawlers security googlebot

6

Como (des) permitir adequadamente o bot do archive.org? As coisas mudaram, se sim, quando?

Eu tenho um site que geralmente não quero que seja indexado pelos mecanismos de busca, mas quero preservá-lo por toda a eternidade em archive.org. Então, meu robots.txtcomeço com isso: User-agent: * Disallow: / Hoje, de acordo com o archive.org , tenho que adicionar o seguinte no meu robots.txtpara permitir seus …

10 web-crawlers robots.txt internet-archive

2

Devemos abandonar o esquema de rastreamento AJAX?

Então agora o Google descontinuou o esquema de rastreamento AJAX . Eles dizem para não se incomodar em implementá-lo em novos sites, porque não é mais necessário, já que o Googlebot não tem problemas para assistir a conteúdo dinâmico. Devemos confiar imediatamente nessa afirmação, ou melhor, aderir ao padrão descontinuado …

9 seo web-crawlers googlebot ajax

Perguntas com a marcação «web-crawlers»