Sou o principal designer e autor de um rastreador da Web em larga escala (consulte metadatalabs.com/mlbot (link arquivado) ). O que você está perguntando toca em um tópico que é muito importante para nós - talvez a parte mais importante da execução de um rastreador: o da cortesia.
Primeiro: o motivo da coisa "Mozilla" é informar ao site quais são as capacidades do seu navegador. Se o seu bot não está tentando agir como um navegador, não há nenhuma razão específica para incluir a coisa "Mozilla".
Quanto à string do agente do usuário e outros itens relacionados à polidez:
Selecione um nome que você saiba que mais ninguém está usando. Eu suspeito que se você usar "Goofybot", você ficará bem. Mas eu verificaria para ter certeza.
A string do seu agente de usuário deve incluir um link para mais informações sobre o bot. Por exemplo, nossa string lê "MLBot (www.metadatalabs.com/mlbot)".
Certifique-se de que se alguém pesquisar "Goofybot", essa página esteja alta (de preferência primeiro) nos resultados da pesquisa.
Sua página sobre o bot deve dizer para o que você está usando as informações, para quais endereços IP você rastreia e incluir uma maneira de as pessoas entrarem em contato com você sobre problemas com o bot.
Você deve responder a quaisquer perguntas ou reclamações rapidamente, usando a filosofia "o cliente está sempre certo". Lembre-se, se o seu bot causou um problema do qual essa pessoa está reclamando, provavelmente causou problemas em uma dúzia de outros sites dos quais ninguém reclamou. Eles não viram os problemas ou apenas colocaram um bloqueio no seu endereço IP.
Você deve criar um recurso para impedir que seu bot acesse um nome de domínio específico. Algumas pessoas não desejam que você rastreie e não têm acesso ou capacidade técnica para criar um robots.txt ou bloquear o .htaccess. Descobrimos que essa capacidade nos permite dizer a alguém: "Lamentamos que o MLBot tenha causado um problema. Instruímos a nunca rastrear seu site novamente". Talvez não surpreendentemente, isso acalma as pessoas muito rapidamente.
Se você ainda não respeita o robots.txt, faça-o. Nada lhe dará uma má reputação mais rapidamente do que ignorar o robots.txt.
Uau. Isso durou mais do que eu esperava. Nos últimos quatro anos, cometi todos esses erros que menciono acima e outros além. Descobrimos, no entanto, que, se somos abertos ao que estamos fazendo e nos comunicamos com honestidade (incluindo a publicação de informações sobre erros antes de recebermos reclamações), a maioria dos Webmasters nos vê como um bom cidadão da Internet.