Você consideraria o geocodificação on-line uma violação da privacidade?


21

Suponha que eu tenha vários endereços de pessoas que participam de um determinado estudo (provavelmente relacionado à saúde, onde privacidade e considerações éticas são sempre questões importantes).

Atualmente, fornecedores como Google ou Yahoo oferecem resultados decentes em termos de precisão posicional.

A Associação Norte-Americana de Registros Centrais de Câncer ( NAACCR ) lista essas opções em seus guias ' Melhores práticas de geocodificação: revisão de oito sistemas de geocodificação comumente usados ' e ' Guia de boas práticas de geocodificação '.

Cinnamon e Schuurman (2010), por exemplo, usaram o serviço BatchGeocode como parte de sua ferramenta para investigar lesões em locais com poucos recursos.

Você consideraria geocodificar esses endereços usando serviços on-line, como o Google Maps ou o OpenStreetMap, como uma violação de privacidade?

PS1 possivelmente questão relacionada .

O artigo recente do PS2 em Epidemiology (um dos principais jornais de revisão por pares no campo) publicou breves comunicações detalhando instruções sobre como geocodificar usando as APIs do Google Maps & Places. Curiosamente, nenhuma palavra sobre segurança / privacidade foi mencionada ...


Pergunta do escopo do wiki da comunidade?
usar o seguinte texto

Respostas:


11

Definitivamente, existe uma implicação de privacidade aqui - principalmente se você estiver trabalhando com pequenos lotes de dados. Qualquer pessoa que esteja tentando explorar o fluxo de dados poderá fazer suposições de que todas as solicitações no mesmo lote têm algo em comum - mesmo que a condição médica ou informações pessoais não sejam divulgadas por fio.

Uma técnica melhor é agrupar lotes de dados / pacientes não relacionados para geocodificação em massa.

Por exemplo - combine seus dados que precisam de geocodificação com outros pesquisadores - quanto mais problemas não relacionados, melhor. Randomize a ordem dos pedidos. E uma vez por dia, processo em lote por essa fila, tudo de uma vez.

Agora, fica muito mais difícil extrair os dados, mesmo que um invasor possa ouvir as solicitações de geocodificação.


Interessante! Alguma ferramenta / plataforma que possa facilitar esse processo?
Nicolas Raoul

8

Geocodificar localmente com arquivos criptografados em um servidor seguro seria definitivamente o padrão ouro para a privacidade. Usar o Tor seria a próxima melhor coisa, se fosse necessário geocodificar usando uma API remota.

O Tor protege você devolvendo suas comunicações em uma rede distribuída de relés executados por voluntários em todo o mundo: impede ... os sites que você visita de aprender sua localização física.

Junto com a injeção de endereços aleatórios (como os outros aqui recomendam) e usando o SSL (https) para criptografar as comunicações em seus pontos de extremidade (verifique se você também está fazendo isso), não consigo pensar em uma maneira mais segura de codificar geograficamente remotamente do que via o Projeto Tor . Qualquer que seja o serviço de geocodificação que você estiver usando, nunca será capaz de identificar de onde vieram as solicitações e, com o https, ninguém mais o fará. Nota: não use um serviço de geocodificação que exija uma chave API para isso, ou você não será mais anônimo. (O Google não requer mais uma chave API).

Mais detalhes sobre o uso do Tor estão na minha resposta a uma pergunta relacionada aqui.


Obrigado, não pensei em Tor, mas parece uma boa ideia.
Radek

Mesmo usando o Tor, o servidor de geocodificação ainda recebe suas informações, o que é uma violação fundamental da privacidade. Você não pode confiar no servidor de geocodificação.
Nicolas Raoul

8

Esta é uma excelente pergunta que me fizeram várias vezes ultimamente desde que trabalho para uma empresa de verificação de endereços chamada SmartyStreets.

Primeiro, um endereço postal representa um único ponto localizável no mapa. Um endereço por si só é inerentemente benigno porque não possui nenhuma informação adicional. Desenhar um ponto em um mapa não faz nada. Somente quando você começa a atribuir CONTEXT a esse ponto (endereço) é que ele começa a significar algo.

Com isso em mente, um endereço postal pode representar uma pessoa, uma organização, um prédio, um carro, o que for. Depois de começar a reunir vários endereços postais, você aumenta o contexto que pode ser derivado desse agrupamento. Semelhanças podem ser determinadas para ver o que os endereços têm em comum. Ainda assim, apenas um agrupamento de endereços em uma área semelhante não denota muito contexto. Eu posso olhar para um mapa do google e ver todas as casas em uma determinada área. Isso não é uma violação da privacidade, a menos que eu tenha acesso não autorizado a informações privilegiadas.

Outros pontos de contexto devem ser combinados para realmente fornecer qualquer tipo de dados privados. Por exemplo, um grupo de endereços postais enviados a um serviço online para verificação de endereço e / ou geocodificação não fornece informações, a menos que você saiba quem enviou a lista para processamento. Uma vez que o proprietário da lista é conhecido, certas inferências podem ser feitas sobre o uso pretendido da lista. Conhecer esse contexto adicional, como o proprietário da lista e o uso pretendido, certamente se qualificaria como informação privilegiada e pode ser uma fonte de violação de privacidade.

Trazer o processamento "internamente" para que nenhum serviço de dados externo esteja envolvido é uma opção. Certamente exclui qualquer tipo de acesso não autorizado a informações privilegiadas. A verificação de endereços e a geocodificação não são tarefas para os não iniciados e, certamente, exigem habilidades avançadas (significando experiência adquirida ao longo do tempo) para processar listas muito grandes sem consumir quantidades excessivas de tempo e recursos. Portanto, trazê-lo para casa é certamente uma opção, mas toda empresa que possui informações confidenciais de endereço tem recursos para realizar seu próprio processamento "seguro" de endereços (incluindo geocodificação) em casa? Não. (Embora isso certamente signifique segurança no emprego para os leitores deste site.)

Existem maneiras de manter a privacidade necessária e ainda usar serviços online. Um método seria criar uma conta, testar tudo e descobrir e, usando um endereço de e-mail temporário, configurar uma nova conta com um endereço de cobrança não relacionado associado a um cartão de crédito que não possa ser rastreado até você. O processamento dos endereços nessa conta teoricamente não revelaria nenhum contexto valioso e, portanto, manteria a privacidade dos indivíduos na lista. (Isso está começando a soar como o filme Inimigo do Estado .

Se isso parece complexo e desnecessário, eu concordo. Um método mais simples seria tirar proveito de uma API que usa HTTPS e POST e que não armazena ou registra nenhum dado processado. O uso de HTTPS significa que o único registro seria um carimbo de data e hora e o endereço IP de onde você chama. O URL subjacente não seria conhecido. É claro que a conta que você usa levaria de volta para você, MAS isso não é um problema, porque o uso de uma solicitação POST permite anexar uma carga útil (nesse caso, um lote de endereços) e o conteúdo da carga útil não é registrado. Portanto, os endereços que você envia não estão em nenhum log do servidor. E o fato de que a memória é apagada entre cada processo significa que esses endereços nunca são armazenados ou registrados e sua transmissão de volta para você é feita por uma conexão segura.

13Mar2012 06:31 (-6) IP: 12.134.223.12 ID do usuário: 875564 - POST QTY: 3439942 - [Processado]

Qualquer um que olhe os logs verá apenas que você processou alguns endereços e eles não terão idéia de quais endereços foram processados. Isso satisfaz até os mais rigorosos requisitos da política de privacidade. Não faria sentido salientar que esse tipo de serviço está disponível (e super rápido ) sem mencionar onde encontrá-lo. Ele já está incorporado no serviço da API LiveAddress da SmartyStreets. Outros serviços, como Cdyne, QAS e ServiceObjects, também podem oferecer serviços semelhantes, mas ainda não ouvi falar.


Obrigado por informações detalhadas. Definitivamente, o HTTPS parece uma ideia razoável. Presumo que o SmartyStreets seja limitado aos EUA?
Radek

Sim, a verificação de endereços e a geocodificação do SmartyStreets estão limitadas aos endereços do Serviço Postal dos EUA.
30512 Jeffrey

5

Possivelmente você pode criar um ID, dividir sua mesa. Removendo informações de identificação pessoal. depois junte-se à tabela após a geocodificação.

Na linha de (PCness federado), suponho que você possa provar que, depois de executar os dados em um servidor em algum lugar, não mantém a cadeia de custódia.

Eu encontrei um pouco de escrita sobre o assunto, se você gostaria de seguir ...

Posse e controle da nuvem

Posse e controle da era eletrônica

Livro do Google

Implicações legais da computação em nuvem

Se a aplicação for executada de acordo com a lei, a computação em nuvem poderá ser completamente excluída dos serviços do governo.


5

Não, você pode geocodificar offline. Se você estiver usando geocodificadores em lote on-line, como converter endereços em coordenadas geográficas se torna um problema de privacidade? Seria mais um problema se o nome de todos fosse incluído e divulgado. Como Brad menciona o endereço separado com um ID e o revenda quando os endereços foram geocodificados. Prática padrão.


5
Concordo que você pode geocodificar offline e não precisa divulgar nenhuma informação pessoal. Mas não concordo com a sua sugestão, que considera apenas o nome e o ID como informações que devem ser mantidas em sigilo. Se você divulgar o endereço residencial de uma pessoa, mesmo sem o nome, você os identificou. Pense em publicar um mapa com pontos nas casas das pessoas com Doença Transmissível Altamente Embaraçosa.
davidf

2
Como o Mapperz disse, desde que as informações que você está enviando sejam limitadas ao endereço, não haverá problemas. Não inclua "HECD" ou qualquer outra informação confidencial nas informações que você está enviando.
perfil completo de jvangeld

1
@DavidF todos os endereços têm coordenadas geográficas - a geocodificação é 99,9% automatizada [computação] nenhuma privacidade é perdida. Se você não gostar on-line, não o coloque lá, use uma versão off-line.
Mapperz

2
@jvangeld Ainda acho que a privacidade pode ser violada na situação on-line quando terceiros podem combinar a identidade da organização que está enviando a solicitação de geocódigo e os endereços. Se a Frente Popular para o Tratamento do Vampirismo enviar um geocódigo em lote com 100 endereços, você não acha que um terceiro poderia razoavelmente supor que as 100 casas tinham pessoas que estavam tentando curar seu 'estilo de vida alternativo'? Obviamente, esse é um argumento bastante acadêmico, mas se você realmente deseja proteger a privacidade e o anonimato, acho que isso é relevante.
davidf

1
A opinião do @DavidF é muito importante aqui: o endereço residencial é considerado muito sensível e pode levar à divulgação dos participantes do estudo. Se houver 1000 solicitações de um endereço IP de uma instituição que estuda vampirismo, pode-se simplesmente assumir que eles têm endereços de possíveis 1000 vampiros. Meu problema aqui é: o serviço de geocodificação on-line pode ser considerado como 'parte segura' nessas condições? Você pode ser acusado de compartilhar seus dados com parte não autorizada que não faz parte do estudo? Parte que, através do processo de geocodificação, potencialmente teve acesso aos dados?
Radek

4

A geocodificação é de baixo risco No início deste ano, trabalhamos com alguns hospitais e essa questão surgiu. O serviço de geocodificação em si não era uma grande preocupação, porque retiramos todos os dados, exceto o ID e o endereço, usamos transferência segura (https) e os TOS, nosso geocodificador interno especificou proteções de privacidade suficientes para atender a seus critérios.

Exibir locais anonimamente é mais difícil O mais complicado foi exibir mapas de dados esparsos, mantendo a anonimidade. A primeira opção solicitada pelo cliente foi adicionar um "fudge" aleatório em cada ponto para que a localização real da casa fosse obscurecida. O problema dessa abordagem é que o tamanho do fudge necessário é bastante grande (meia milha ou mais) (e se alguém mora em uma fazenda) e a tendência dos usuários do mapa de considerar os locais dos pontos tão precisos. Decidimos agregar os pontos exibidos o suficiente para serem anônimos e ainda ter um mapa útil. Uma norma de outras indústrias em que trabalhamos parece ser que a unidade de agregação deve ter pelo menos 7 a 10 registros.


2

Eu presumo que você está geocodificando e não divulgando os resultados? Nesse caso, como a nuvem estaria ciente do que esses dados representam?

Presumivelmente, você também pode ofuscar todos os dados que você codifica geograficamente com dados aleatórios, ocultando qualquer padrão inerente que possa existir.


correto, o objetivo é obter um conjunto de coordenadas geográficas para um determinado conjunto de dados. todo o restante da análise ficará offline e qualquer coisa publicada posteriormente nunca utilizará informações em nível individual. Eu gosto da idéia de ofuscar o conjunto de dados!
Radek

2

Eu não sei se isso é novo desde que a pergunta foi feita, mas se alguém estava se perguntando no google maps api v3, você pode usar SSL (https). Além disso, a seção de privacidade do Guia de Boas Práticas da NAACCR discute esses problemas.


2

Na Áustria, isso definitivamente seria uma questão de privacidade.

Primeiro: os dados de saúde são classificados como confidenciais e não há dúvida de que não é permitido enviá-los a terceiros sem o consentimento explícito da pessoa que está relacionada a esse conjunto de dados.

Mesmo se for anonimizado: é possível codificar geograficamente esses dados de saúde, mas também é possível codificar geograficamente os Registros de Nome para Endereço (Agenda) e conectar dados de saúde a pessoas que moram lá, para que os endereços também sejam classificados como pessoais dados.

Isso leva ao resultado, que você não teria permissão para codificar geograficamente esse conjunto de dados enviando-o a terceiros sem pedir explicitamente aos participantes.


1

Você precisa de um geocódigo exato ou área geral? Você pode usar apenas o código postal ou o código postal parcial f


@ user1466: o geocódigo exato seria definitivamente uma preferência aqui.
Radek

1

Trabalho em uma empresa de geocodificação ( YAddress.net ) e temos um grande número de clientes com requisitos rigorosos de privacidade - setor financeiro, saúde, direito, etc.

Abordamos suas preocupações com a privacidade de duas maneiras:

  1. Processamento de dados online através de conexões criptografadas SSL (impede a invasão de dados em trânsito), além de acordos de privacidade do nosso lado. Isso é suficiente para alguns clientes, mas não para todos.

  2. Para máxima privacidade, uma opção de implantação de software no local, onde a geocodificação ocorre inteiramente nas instalações do cliente e nenhum dado viaja pela Internet.

Como os outros comentadores observaram corretamente, um endereço postal em si é uma informação pública e sem dados contextuais (como nomes de clientes, números etc.), não representa nenhuma divulgação de nada. No entanto, as empresas da vida real operam em ambientes legais da vida real, onde essa linha de raciocínio pode ou não estar em tribunal. Se a privacidade é uma preocupação premente, o custo extra de uma solução no local pode valer a pena para evitar o risco de possíveis complicações legais no caminho.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.