Embora a tentativa de bloquear bots possa ajudar a liberar recursos e limpar seus logs, é importante observar que o robots.txt e até o uso da metatag nas páginas noindex na verdade não impedem que os bots visitem seu site. Eles ainda podem rastrear seu site ocasionalmente para ver se o negado pelos robôs foi removido. Muitos bots nem usam um agente de usuário e usarão um agente de usuário padrão. Os bots aos quais estou me referindo são tipicamente bots de colheita de SEO que pesquisam backlinks e não os gerais que você encontra nos mecanismos de pesquisa.
Em vez de bloquear os bots, você deve levar em consideração esses bots ao contar seus visitantes. Depois de um tempo monitorando ativamente seu site, você estabelece um número aproximado de bots. A maioria das pessoas se preocupa com visitas únicas e isso exclui os bots, pois eles estão constantemente retornando. Hoje em dia, existem muitos servidores, hospedagem compartilhada que pode lidar com esses bots; portanto, além das páginas que você não deseja indexar, não vejo razão para bloquear esses tipos de bots. Claro que você também tem bots prejudiciais, mas certamente não usará o agente do usuário;).
Pessoalmente, acredito que o bloqueio de robôs é uma perda de tempo, uma vez que eles não usam muito os recursos. Os robôs de SEO podem ajudar, pois listam seu site em páginas PR0, o que naturalmente aumenta seu PageRank e é automatizado para que você não seja punido. por eles.
Problema de logs
Você deve usar um visualizador de logs adequado que permita filtrar determinadas solicitações, o que facilita a revisão dos logs. Bons espectadores podem filtrar várias coisas, como visitas normais, 404s e assim por diante.