Uma empresa implicou o direito de rastrear meu site?


30

Descobri que o McAfee SiteAdvisor relatou meu site como "pode ​​estar tendo problemas de segurança" .

Preocupo-me pouco com o que a McAfee pensa do meu site (eu mesmo posso protegê-lo e, caso contrário, a McAfee definitivamente não é a empresa que eu pediria ajuda, muito obrigado). O que me incomoda, porém, é que eles aparentemente rastrearam meu site sem minha permissão.

Para esclarecer: Ainda não há quase nenhum conteúdo no meu site, apenas alguns espaços reservados e alguns arquivos para meu uso pessoal. Não há ToS.

Minhas perguntas são: A McAffee tem o direito de baixar conteúdo do / rastrear meu site? Posso proibi-los de fazer isso? Tenho a sensação de que deve haver algum tipo de princípio "Meu castelo, minhas regras", mas basicamente não sei nada sobre todas as coisas legais.

Atualização: eu provavelmente deveria ter mencionado que meu provedor de servidores me envia e-mails sobre as descobertas do SiteAdvisor regularmente - foi assim que descobri a classificação deles e é por isso que estou chateado.


78
Você diria que os humanos têm o direito de visualizar seu site? Se sim, por que discriminar os servos de robôs humanos? Caso contrário, por que é um site em primeiro lugar?
precisa saber é

47
Como você descobriu que o SiteAdvisor sinalizou seu site? Você não visualizou o site deles , viu? Se sim, o que lhe deu o direito?
precisa saber é o seguinte

17
Aliás, eu não descartaria o relatório do SiteAdvisor com tanta leveza, em geral quando vi relatórios semelhantes de que eram legítimos. O caso mais comum é ter uma versão mais antiga / sem patch do CMS popular (WordPress, Joomla, Drupal, ...) explorada por algum script automático para colocar conteúdo malicioso (páginas de "trampolim" usadas para spam / phishing, hospedagem de vírus vinculados a e-mails fraudulentos, explorações de navegador, o nome dele); você pode hospedar coisas ruins sem saber. Além disso, como muitos usuários confiam nessas ferramentas, normalmente você deseja ter um registro limpo, pois esses avisos podem assustar os usuários.
Matteo Italia

35
Se você quiser algo bloqueado, trave-o. Você instalou o site e configurou o servidor para responder às solicitações GET. Você convidou todo mundo - literalmente, todo mundo. Este não é um direito "implícito", é como os servidores da web funcionam. Exceto, conforme observado, robots.txt, restrições de IP ou conteúdo restrito a usuários conectados.
precisa saber é o seguinte

20
@RolazaroAzeveires: Processos automatizados não são aceitáveis, não porque permitir que visitantes humanos o impliquem, mas porque, impedindo ataques, eles perguntam muito bem: "posso ter esses arquivos?" e você configurou seu servidor da web para responder: "Claro! Aqui está. Precisa de mais alguma coisa?" Isso não está rastreando sem a sua permissão, está rastreando com a sua permissão.
Marcks Thomas

Respostas:


49

Existe um precedente legal para isso. Campo v. Google Inc., 412 F. Supp. 2d 1106, (US Dist. Ct. Nevada 2006). O Google obteve um julgamento sumário com base em vários fatores, principalmente o autor que não utilizou um arquivo robots.txt nas metatags do site, o que impediria o Google de rastrear e armazenar em cache as páginas que o proprietário do site não queria indexar.

Decisão pdf

Não existe lei nos EUA que lide especificamente com arquivos robots.txt; no entanto, outro processo judicial estabeleceu um precedente que poderia levar os arquivos robots.txt a serem considerados como contornar medidas eletrônicas intencionais tomadas para proteger o conteúdo. Em HEALTHCARE ADVOCATES, INC Vs HARDING, EARLEY, FOLLMER & FRAILEY, et. Além disso, o Healthcare Advocates argumentou que Harding e colaboradores basicamente invadiram os recursos da Wayback Machine para obter acesso a arquivos em cache de páginas que possuíam versões mais recentes dos arquivos robots.txt. Embora os advogados do setor de saúde tenham perdido esse caso, o Tribunal Distrital observou que o problema não era que Harding et al "haviam bloqueado o bloqueio", mas que eles obtiveram acesso aos arquivos devido a um problema de carga do servidor na Wayback Machine que concedeu acesso ao arquivos em cache quando não deveria

Decisão do Tribunal pdf

É apenas uma questão de IMHO tempo até que alguém toma essa decisão e transforma-lo em seu lado: O tribunal indicou que robots.txt é um bloqueio para evitar o rastreamento e contornar isso é escolher o bloqueio.

Infelizmente, muitos desses processos não são tão simples como "Tentei dizer ao seu rastreador que não é permitido e ele ignorou essas configurações / comandos". Existem muitos outros problemas em todos esses casos que afetam mais o resultado do que a questão principal de saber se um arquivo robots.txt deve ou não ser considerado um método de proteção eletrônica de acordo com a lei do DCMA dos EUA.

Dito isto, esta é uma lei dos EUA e alguém da China pode fazer o que quiser - não por causa da questão legal, mas porque a China não aplicará a marca registrada e a proteção de direitos autorais dos EUA, então boa sorte é ir atrás delas.

Não é uma resposta curta, mas realmente não existe uma resposta curta e simples para sua pergunta!


11
Esta é uma ótima resposta, obrigado. O que eu não gosto no robots.txt é que ele não é um padrão real (padrão de negligência exigido por lei). Essas empresas podem simplesmente ignorá-lo. Não gosto de estar na posição em que eles me dizem: "Você deve criar um arquivo robots.txt e talvez não indexemos seu site, mas talvez façamos o que gostamos". Seria ótimo se houvesse um padrão para especificar ToS do site nos metadados do site.
kralyk

5
@jcanker Esses dois casos são sobre reivindicações de violação de direitos autorais. No comportamento de rastreadores que armazenam em cache conteúdo, como os operados pelo Google e pelo archive.org, faz todo o sentido que as questões de direitos autorais entrem em ação. Mas o McAfee SiteAdvisor, na verdade, não está copiando e armazenando (muito menos disponibilizando publicamente) os sites que ele acessa, não é? Embora eu não seja advogado, acho que essa distinção nos dá motivos para duvidar muito de que ambos os casos sejam de alguma forma aplicáveis ​​ao comportamento de um sistema como o SiteAdvisor, independentemente de respeitar ou não o robots.txt.
Eliah Kagan

12
@kralyk - re "Essas empresas podem simplesmente ignorá-lo.". Bem, sim. É assim que a internet funciona. E mesmo que fosse de alguma forma mais fundamental, seria trivial, absolutamente trivial, para um rastreador fingir que era um ser humano acessando suas páginas da web. Você está pedindo o tecnicamente impossível . De fato, se você pensa no que está perguntando, o que procura não é lógico, não tem sentido. Exceto em uma distinção legal. Suas únicas proteções possíveis são: (1) ocultar conteúdo importante por trás da autenticação de login do usuário e (2) proteção legal, conforme discutido nesta resposta.
Página

@ToolmakerSteve Eu sei que é tecnicamente impossível proibir completamente os robôs. Porém, essa é uma situação diferente - não estou procurando uma solução técnica, estou perguntando se é legal; observe também que a McAffee me informou que eles rastreiam meu site, não preciso detectá-lo.
kralyk

Há também um precedente legal para o outro lado: borda ebay v do licitante
John

91

Sim, eles têm o direito de fazê-lo - você criou um site público, o que faz você pensar que não?

Você também, é claro, tem o direito de detê-los. Você pode solicitar que eles não rastreiem seu site com robots.txt ou impeçam ativamente que acessem o site com algo como fail2ban .

Como alternativa, não se preocupe com isso e continue com sua vida. Não está doendo nada e está definitivamente no lado benigno da investigação na Internet.


4
> "Sim, eles têm o direito de fazê-lo - você criou um site público, o que faz você pensar que não?" Bem, se algo é tecnicamente possível, isso não significa necessariamente que é legal. Por exemplo, os ToS do YouTube proíbem o download de vídeos; portanto, apesar de tecnicamente muito fácil, ainda não é permitido. Eu não me preocuparia com SiteAdvisor se não fosse para o meu fornecedor que me envia e-mails sobre o meu site "talvez tendo problemas" ...
kralyk

16
@kralyk - se você não quiser que o público (que inclui a McAfee) veja, não o coloque na web. É simples assim. Você controla seu site. Ninguém está forçando você a divulgá-lo, e se você não quiser que as pessoas o vejam, NÃO o exponha. Se você vai divulgá-lo, não se surpreenda que as pessoas (incluindo as pessoas que querem vender coisas para você) estejam olhando para ele. Pare de tentar transformar seus desejos no problema de outra pessoa.
precisa saber é o seguinte

9
@kralyk: sério? Você realmente acha que a questão aqui é um duplo padrão? Nenhuma pessoa na McAfee conhece ou se preocupa com o seu site. Nem deveriam. Seria absurdo esperar que alguém que rasteja na Web leia os ToS de todos. É por isso que robot.txt foi inventado.
Página

3
@kralyk O acesso aos recursos em questão deve ser bloqueado para que o ToS seja praticamente significativo. Um robô que rastreia suas páginas desprotegidas é completamente diferente de alguém que registra uma conta, reconhece um ToS e depois alimenta as credenciais para um robô.
Andrew B

4
@kralyk - Que tipo de TDS você possui em seu site e considera que a McAfee está violando (sem respeitar)?
precisa

11

Se esse comportamento é ético ou não, não é perfeitamente claro.

O ato de rastrear um site público não é, por si só, antiético (a menos que você o tenha proibido explicitamente usando um robots.txt ou outras medidas tecnológicas, e eles estão sendo contornados).

O que eles estão fazendo é o equivalente aproximado de ligar para você, enquanto anuncia ao mundo que você possivelmente não está seguro. Se isso prejudica sua reputação e é injustificado, é antiético; se isso é feito e a única solução envolve envolver o pagamento, é extorsão. Mas acho que não é isso que está acontecendo.

A outra vez que isso se torna antiético é quando alguém rastreia seu site para se apropriar de seu conteúdo ou dados e depois o representa como seu. Mas também não é isso que está acontecendo.

Portanto, sugiro que o comportamento deles neste caso seja ético, e você também pode provavelmente ignorá-lo.

O comportamento relacionado deles de enviar spam a você é antiético se você não tem nenhum relacionamento com eles e não solicitou os e-mails, mas suspeito que eles tenham cancelado a inscrição.


11
Não tenho certeza se consideraria uma Disallowdiretiva em um arquivo robots.txt uma "medida tecnológica proibitiva". O robots.txt atua como uma solicitação de cortesia e, embora os robôs com bom comportamento o cumpram, não há obrigação nem segurança real envolvida. Na verdade, bots mal comportados poderia muito bem ter uma entrada no robots.txt como um convite para rastreamento que caminho específico ...
um CVn

2
@ MichaelKjörling, apenas metade concorda. Não há segurança real, mas há uma obrigação. É um sinal de impedimento e sua obrigação é impedir que você não tenha permissão para entrar.
Ben Ben

É um sinal de "manter fora", sem uma trava. Tente isso em sua casa e veja quanta simpatia você sente depois que os ladrões chegam! (Na verdade, é uma "manter fora" sinal que lista explicitamente as portas e janelas desbloqueados que você quer que as pessoas para ficar de fora.)
Randy Orrison

2

Abordagem técnica para impedir que certas pessoas ou empresas acessem seu site:

Você pode bloquear endereços IP específicos ou intervalos de endereços de acessar as páginas do seu site. Este arquivo está no arquivo .htaccess (se o site estiver sendo executado no Apache Web Server).

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

Faça com que o servidor da Web registre os endereços IP dos quais é acessado e procure esses endereços IP para encontrar os associados à McAfee. Provavelmente é fácil saber agora, se você não tem visitantes regulares.

Obviamente, eles podem alterar os endereços IP no futuro. Ainda assim, se você procurar os endereços IP que encontrar, para ver quem os possui, poderá aprender sobre todo um bloco de endereços de propriedade da McAfee e bloqueá-los todos.


Para uma base legal para fazê-lo:

"Os proprietários de sites podem bloquear legalmente alguns usuários, regras do tribunal"

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(Se o seu site for pessoal, ninguém contestaria o seu direito de bloquear alguns usuários. Mas, se for um site para uma empresa, existem argumentos legais e morais em ambos os lados dessa discussão. Quanto menor a sua empresa, mais fácil deve ser protegido legalmente - e quanto menos alguém se importasse o suficiente para reclamar de qualquer maneira.)


Você também pode estar interessado em "Negar visitantes por referenciador".

"Se você já examinou seus logs e notou um aumento surpreendente no tráfego, ainda assim, não há aumentos nas solicitações reais de arquivos, provavelmente alguém está beliscando o conteúdo (como arquivos CSS) ou alguém tentando invadir seu site (isso pode significar simplesmente tentar para encontrar conteúdo não público) ".

http://www.htaccess-guide.com/deny-visitors-by-referrer/

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.