Além de obedecer o robots.txt, obedeça nofollow
e noindex
nos <meta>
elementos e links:
Muitos acreditam que o robots.txt não é a maneira correta de bloquear a indexação e, por causa desse ponto de vista, instruíram muitos proprietários de sites a confiar na <meta name="robots" content="noindex">
tag para instruir os rastreadores da Web a não indexar uma página.
Se você está tentando fazer um gráfico de conexões entre sites (algo semelhante ao PageRank),
(e <meta name="robots" content="nofollow">
) deve indicar que o site de origem não confia no site de destino o suficiente para dar o aval adequado. Portanto, enquanto você pode indexar o site de destino, não deve armazenar a relação entre os dois sites.
O SEO é mais uma arte do que uma ciência real, e é praticado por muitas pessoas que sabem o que estão fazendo, e muitas que lêem os resumos executivos de pessoas que sabem o que estão fazendo. Você vai se deparar com problemas nos quais será impedido de acessar sites por fazer coisas que outros sites consideravam perfeitamente aceitáveis devido a alguma regra que alguém ouviu ou leu em um post no SEOmoz que pode ou não ser interpretado corretamente.
Devido a esse elemento humano, a menos que você seja Google, Microsoft ou Yahoo !, você é considerado malicioso, a menos que se prove o contrário. Você precisa tomar cuidado extra para agir como se não fosse uma ameaça para o proprietário de um site, e agir de acordo com o que você deseja que um rastreador potencialmente malicioso (mas que seja benigno) aja:
- pare de rastrear um site depois de detectar que está sendo bloqueado: 403 / 401s em páginas que você conhece como trabalho, limitação, tempo limite etc.
- evite rastreamentos exaustivos em períodos relativamente curtos: rastreie uma parte do site e volte mais tarde (alguns dias depois) para rastrear outra parte. Não faça solicitações paralelas.
- evite rastrear áreas potencialmente sensíveis: URLs com
/admin/
eles, por exemplo.
Mesmo assim, será uma batalha difícil, a menos que você recorra a técnicas de chapéu preto, como a falsificação da UA ou o mascaramento proposital de seus padrões de rastreamento: muitos proprietários de sites, pelos mesmos motivos acima, bloquearão um rastreador desconhecido à vista, em vez de usar a chance de que alguém não esteja tentando "invadir o site". Prepare-se para muitas falhas.
Uma coisa que você pode fazer para combater a imagem negativa que um rastreador desconhecido terá é deixar claro na sua sequência de agente do usuário quem você é:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Onde http://example.com/aarobot.html
explica o que você está tentando realizar e por que você não é uma ameaça. Essa página deve ter algumas coisas:
- Informações sobre como entrar em contato diretamente com você
- Informações sobre o que o rastreador coleta e por que está coletando
- Informações sobre como desativar e excluir todos os dados coletados
Essa última é a chave: uma boa opção de exclusão é como a Money Back Guarantee ™ e obtém uma quantidade razoável de boa vontade. Deve ser humano: uma etapa simples (um endereço de e-mail ou, idealmente, um formulário) e abrangente (não deve haver nenhuma "dica": optar por não participar significa que você para de rastrear sem exceção).