No âmbito dos bots normais, tudo depende do que você aprecia e somente você pode decidir isso. Claro que existem Google, Bing / MSN / Yahoo !, Baidu e Yandex. Estes são os principais motores de busca. Existem também os vários sites de SEO e backlink. Certo ou errado, permito que alguns dos grandes tenham acesso ao meu site, mas geralmente são sites inúteis. Bloco o archive.org não apenas no robots.txt, mas por nome de domínio e endereço IP. Isso ocorre porque eles ignoram o robots.txt em grande escala! Isso é algo que você precisa sentir. Não se deixe enganar pelos nomes dos agentes. Muitas vezes, eles são forjados por pessoas más. Atualmente, estou recebendo milhares de solicitações de páginas de fontes que alegam ser o Baidu, mas não o são. Conheça essas aranhas por nomes de domínio e blocos de endereços IP e aprenda a lidar com elas nesse nível. Os bons obedecem ao robots.txt.
Mas devo avisá-lo, há MUITOS bots furtivos, bots não autorizados, raspadores e assim por diante que você desejará pesquisar na análise de logs com frequência e bloquear. Este 5uck5! Mas tem de ser feito. A maior ameaça deles atualmente são os links de baixa qualidade para o seu site. Meu código de segurança anti-bot atualizado que implementei este ano eliminou 7700 links de baixa qualidade automaticamente. Obviamente, meu código ainda precisa funcionar, mas você entendeu. Os bots ruins ainda roubam o potencial do site.
Não demorará muito para você pegar o jeito.