Ótima pergunta, e muitos webmasters podem estar interessados, já que o Baidu spider é notoriamente agressivo e pode zapear recursos de servidores ...
Conforme indicado nas notícias da Pesquisa na web do Baidu , o spider do Baidu não suporta a configuração de notificação de atraso de rastreamento e exige que você se registre e verifique seu site com a plataforma Baidu Webmaster Tools, conforme indicado aqui em seu site. Essa parece ser a única opção para controlar a frequência de rastreamento diretamente com o Baidu.
O problema é que outros bots de spam usam os agentes de usuário do Baidu (listados aqui no número 2) para criar o arsenal do seu site, conforme indicado nas perguntas frequentes aqui no número 4. Portanto, solicitar uma taxa de rastreamento mais lenta com o Baidu pode não resolver tudo.
Portanto, se você decidir usar as Ferramentas do Google para webmasters do Baidu, talvez seja aconselhável comparar seus agentes de usuário com os IP que estão associados a eles usando um recurso como o banco de dados de bots versus navegadores ou usando uma pesquisa DNS reversa
As únicas outras opções são bloquear todos os agentes do usuário do Baidu e, assim, sacrificar o tráfego potencial do Baidu, ou tentar limitar solicitações excessivas usando algo como mod_qos para o Apache, que afirma gerenciar:
- O número máximo de solicitações simultâneas para um local / recurso (URL) ou host virtual.
- Limitação da largura de banda, como o número máximo permitido de solicitações por segundo para um URL ou o máximo / mínimo de kbytes baixados por segundo.
- Limita o número de eventos de solicitação por segundo (condições especiais de solicitação).
- Também pode "detectar" pessoas muito importantes (VIP) que podem acessar o servidor da web sem ou com menos restrições.
- Linha de solicitação genérica e filtro de cabeçalho para negar operações não autorizadas. Solicitar limitação e filtragem de dados do corpo (requer mod_parp).
- Limitações no nível da conexão TCP, por exemplo, o número máximo de conexões permitidas de um único endereço de origem IP ou controle dinâmico de manutenção.
- Prefere endereços IP conhecidos quando o servidor fica sem conexões TCP livres.
Não encontrei experiências relatadas com as Ferramentas do Google para webmasters do Baidu, que são lentas para carregar e têm problemas de tradução (sem versão em inglês). Isso pode ser útil, mas com base em opiniões, é claro.