Qual agente de usuário devo definir?

Existe o Ask bot, que define este cabeçalho:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma)

Considerando isso, tenho as seguintes perguntas:

Se estou escrevendo um rastreador da Web chamado Goofy, qual agente de usuário devo usar?
Qual é a diferença se eu colocar Mozilla/2.0ou Mozilla/5.0?

Qualquer outra sugestão sobre como devo formatar meu agente de usuário para cumprir com os padrões atuais é bem-vinda.

user-agent web-crawlers

— Nicu Surdu
fonte

Sou o principal designer e autor de um rastreador da Web em larga escala (consulte metadatalabs.com/mlbot (link arquivado) ). O que você está perguntando toca em um tópico que é muito importante para nós - talvez a parte mais importante da execução de um rastreador: o da cortesia.

Primeiro: o motivo da coisa "Mozilla" é informar ao site quais são as capacidades do seu navegador. Se o seu bot não está tentando agir como um navegador, não há nenhuma razão específica para incluir a coisa "Mozilla".

Quanto à string do agente do usuário e outros itens relacionados à polidez:

Selecione um nome que você saiba que mais ninguém está usando. Eu suspeito que se você usar "Goofybot", você ficará bem. Mas eu verificaria para ter certeza.
A string do seu agente de usuário deve incluir um link para mais informações sobre o bot. Por exemplo, nossa string lê "MLBot (www.metadatalabs.com/mlbot)".
Certifique-se de que se alguém pesquisar "Goofybot", essa página esteja alta (de preferência primeiro) nos resultados da pesquisa.
Sua página sobre o bot deve dizer para o que você está usando as informações, para quais endereços IP você rastreia e incluir uma maneira de as pessoas entrarem em contato com você sobre problemas com o bot.
Você deve responder a quaisquer perguntas ou reclamações rapidamente, usando a filosofia "o cliente está sempre certo". Lembre-se, se o seu bot causou um problema do qual essa pessoa está reclamando, provavelmente causou problemas em uma dúzia de outros sites dos quais ninguém reclamou. Eles não viram os problemas ou apenas colocaram um bloqueio no seu endereço IP.
Você deve criar um recurso para impedir que seu bot acesse um nome de domínio específico. Algumas pessoas não desejam que você rastreie e não têm acesso ou capacidade técnica para criar um robots.txt ou bloquear o .htaccess. Descobrimos que essa capacidade nos permite dizer a alguém: "Lamentamos que o MLBot tenha causado um problema. Instruímos a nunca rastrear seu site novamente". Talvez não surpreendentemente, isso acalma as pessoas muito rapidamente.
Se você ainda não respeita o robots.txt, faça-o. Nada lhe dará uma má reputação mais rapidamente do que ignorar o robots.txt.

Uau. Isso durou mais do que eu esperava. Nos últimos quatro anos, cometi todos esses erros que menciono acima e outros além. Descobrimos, no entanto, que, se somos abertos ao que estamos fazendo e nos comunicamos com honestidade (incluindo a publicação de informações sobre erros antes de recebermos reclamações), a maioria dos Webmasters nos vê como um bom cidadão da Internet.

— Jim Mischel
fonte

Que apontam exemplo acima ( metadatalabs.com/mlbot ) só mostra ( "em construção") ....

— starbeamrainbowlabs

@starbeamrainbowlabs Essa resposta foi escrita em 2010. O Metadata Labs foi encerrado em 2012.

— Jim Mischel 13/18

Existe alguma alternativa?

— Starbeamrainbowlabs

@starbeamrainbowlabs alternativa a quê?

— Jim Mischel

Para o que estava vinculado na página de laboratórios de metadados exibida. Como eu não consigo ver, não posso sugerir uma alternativa: P #

— starbeamrainbowlabs

Mozilla / 2.0 e Mozilla / 5.0 são referências ao navegador Mozilla. Tornou-se praticamente sem sentido, com muitos rastreadores usando-o, mas deve informar o site para tratá-lo como faria com qualquer usuário aleatório navegando com um navegador comum.

No entanto, é uma boa etiqueta incluir um URL vinculado a uma página sobre quem você é e por que está rastreando na seção a seguir. Ask Jeeves pode se safar com apenas o nome, mas você deve incluir um URL.

Por exemplo

Mozilla/5.0 (compatible; http://example.org/)

Isso permitirá que os administradores da Web descubram por que você está rastreando o site deles e também entrem em contato se houver algum problema com o comportamento do rastreador.

— Kris
fonte