Meu site está sendo executado por webspiders do Google. O Google pode indexar meu site, mas às vezes consulta uma tagcloud no meu site mais rapidamente do que meu servidor da web pode produzir os resultados, fazendo com que meu servidor fique sem recursos.
Como posso limitar o acesso ao meu servidor da Web de forma que os visitantes normais não sejam afetados?
O robots.txt não é uma opção, pois impediria a indexação de todo o site.
iptables -m recent
é complicado, porque algumas páginas têm muitas imagens ou outros arquivos de dados e gatilhos 'recentes' também (normalmente meu agregador de RSS, carregamento de imagens e feeds).
iptables -m limit
tem a mesma desvantagem e, além disso, não fui capaz de ser seletivo por endereço de origem IP.
Como posso limitar os visitantes que fazem com que a carga do meu servidor suba muito?
Estou executando o apache2 no servidor Ubuntu em uma VM do VirtualBox.