Eu tenho um site que, por motivos de regulamentação, pode não ser indexado ou pesquisado automaticamente. Isso significa que precisamos manter todos os robôs afastados e impedir que eles invadam o site.
Obviamente, tivemos um arquivo robots.txt que não permite tudo desde o início. No entanto, observar o arquivo robots.txt é algo que apenas os robôs bem comportados fazem. Recentemente, tivemos alguns problemas com robôs menos bem comportados. Eu configurei o Apache para banir alguns user-agents, mas é muito fácil contornar isso.
Portanto, a questão é: existe alguma maneira de configurar o Apache (talvez instalando algum módulo?) Para detectar um comportamento semelhante ao robô e responder? Alguma outra ideia?
No momento, tudo o que posso fazer é banir endereços IP com base na inspeção manual dos logs e isso simplesmente não é uma estratégia viável a longo prazo.