Perguntas com a marcação «web-crawlers»

Um programa de computador que acessa páginas da Web para várias finalidades (raspar conteúdo, fornecer aos mecanismos de pesquisa informações sobre seu site etc.)

1
Solicitação do Bingbot para trafficbasedsspsitemap.xml que não existe
Os logs de um site que eu gerencio mostram uma solicitação para um arquivo inexistente do Bingbot. Os detalhes da solicitação são Caminho: /trafficbasedsspsitemap.xml Useragent: "Mozilla / 5.0 (compatível; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" Endereço IP: 65.55.213.244 (a pesquisa inversa resolve para msnbot-65-55-213-244.search.msn.com ) Por que o Bingbot está …



4
O Yahoo Search é o mesmo que o Bing Search agora?
Tivemos alguns problemas sérios com a (incrivelmente) aranha mal escrita do Yahoo no passado e, como resultado, os bloqueamos. Marco Arment, do Tumblr, também compartilhou suas frustrações conosco em 31/8/2009, o que foi um fator para bloqueá-las. [O Yahoo's Spider] vem nos inundando com 70-200 solicitações / segundo desde cerca …




3
Qual agente de usuário devo definir?
Existe o Ask bot, que define este cabeçalho: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Considerando isso, tenho as seguintes perguntas: Se estou escrevendo um rastreador da Web chamado Goofy, qual agente de usuário devo usar? Qual é a diferença se eu colocar Mozilla/2.0ou Mozilla/5.0? Qualquer outra sugestão sobre como devo formatar meu …

3
O robots.txt pode estar no subdiretório de um servidor?
Eu tenho um subdiretório que gostaria de ocultar dos rastreadores da Web do mecanismo de pesquisa. Uma maneira de fazer isso é usar a robots.txtno diretório raiz do servidor (a maneira padrão). No entanto, qualquer pessoa que conheça o URL do site e tenha algum conhecimento básico da Web pode …

3
SEO - site responsivo e menus duplicados
Sempre que crio um site responsivo, geralmente crio 2 menus: um oculto e usado para dispositivos móveis e o outro exibido como menu principal; depois, oculto para mostrar o menu móvel. Sempre que se trata de SEO e de aranhas que navegam no site, sou enganado por ter menus duplicados? …

7
Como bloquear aranhas baidu
A maioria das minhas visitas são de aranhas baidu. Eu não acho que isso ajuda os mecanismos de pesquisa, então estou pensando em como bloqueá-los. Isso poderia ser feito via iptables? Estou usando o nginx como meu servidor da web.



2
Devo bloquear bots do meu site e por quê?
Meus registros estão cheios de visitantes de robôs, geralmente da Europa Oriental e da China. Os bots são identificados como Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou e assim por diante. Devo bloquear esses robôs do meu site e por quê? Quais têm um propósito legítimo em aumentar o tráfego para o …

1
Por que o baidu rastreia meu site como um louco
Ao verificar meu log do apache, vejo que o baidu está rastreando meu site 10 vezes por dia nas últimas 2 semanas. Não é que eu me importe muito com isso, mas estou realmente curioso sobre o motivo de ele estar fazendo isso. É um site de página única muito …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.