Desde meados de agosto de 2014, vários servidores do Google baixam todos os (muito) grandes arquivos binários no meu site, cerca de uma vez por semana. Todos os IPs são de propriedade do Google e têm a seguinte aparência: google-proxy-66-249-88-199.google.com. Essas são solicitações GET e estão afetando bastante o tráfego do meu servidor.
Antes disso, eu não via tráfego desses IPs de proxy do Google, então isso parece ser relativamente novo. Eu vejo todos os tipos de tráfego de outros IPs do Google, todos eles apenas solicitações googlebot e HEAD.
Eu não ficaria preocupado com isso, exceto que todos esses arquivos estão sendo baixados pelo Google a cada semana, aproximadamente. A largura de banda usada está começando a ficar excessiva.
Especulei que, como muitos desses arquivos são executáveis no Windows, talvez o Google os esteja baixando para executar verificações de malware. Mesmo se isso for verdade, isso realmente precisa acontecer toda semana?
Exemplo de tráfego de IPs de proxy do Google em novembro até agora:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Atualização 1: esqueci de mencionar que os arquivos em questão já estão no arquivo robots.txt do site. Para processar a configuração do robots.txt, eu também usei o testador do robots.txt nas Ferramentas do Google para webmasters, que mostra que os arquivos estão definitivamente sendo bloqueados para todos os bots do Google, com uma exceção: Adsbot-Google. Também não tenho certeza do que se trata. E pesquisei no Google alguns dos arquivos, e eles NÃO aparecem nos resultados da pesquisa.
Atualização 2: Exemplo: entre 5h12 e 5h18 PST de 17 de novembro, cerca de meia dúzia de IPs (todos os proxy do google) fizeram GETs em todos os arquivos binários em questão, 27 no total. Em 4 de novembro, entre 14:09 e 14h15 PST, esses mesmos IPs fizeram basicamente a mesma coisa.
Atualização 3: neste momento, parece claro que, embora sejam IPs válidos do Google, eles fazem parte do serviço de proxy do Google e não do sistema de rastreamento da Web do Google. Como esses são endereços de proxy, não há como determinar de onde as solicitações GET são realmente originárias ou se são de um local ou de muitos. Com base na natureza esporádica dos GETs, não parece que haja algo nefasto acontecendo; provavelmente é alguém que decide fazer o download de todos os binários enquanto usa o serviço de proxy do Google. Infelizmente, esse serviço parece estar completamente sem documentos, o que não ajuda. Do ponto de vista do administrador do site, os proxies são bastante irritantes. Não quero bloqueá-los, porque eles têm usos legítimos. Mas eles também podem ser mal utilizados.