Quais ferramentas existem para mascarar dados? (MySQL, Linux) [fechado]


14

Estou procurando ferramentas de mascaramento de dados (idealmente gratuitas e de código aberto). Existe tal?

Nota: esta pergunta relacionada lida com ferramentas para gerar dados de teste, mas nesta questão estou mais interessado em começar com dados reais e mascará-los para uso em teste sem perder nenhum relacionamento especial que o torne interessante para fins de teste. Os dados gerados são bons para alguns fins de teste, mas os dados do mundo real trarão problemas que você nunca imaginou. Ferramenta para gerar grandes conjuntos de dados de dados de teste

Respostas:


9

Eu ficaria muito surpreso se houvesse uma ferramenta genérica para isso - como "saber" o que é dados confidenciais e o que não é? Por exemplo, seria necessário examinar todos os seus dados e reconhecer todos os formatos possíveis de número de cartão de crédito, número de telefone, código postal, endereço de e-mail e quaisquer outros dados considerados sensíveis. Também seria preciso ser esperto em relação ao seu esquema - por exemplo, se ele reescrever todos os endereços de email do cliente para "nobody@company.com" - ou qualquer parte do seu banco de dados, aplicativos e outras ferramentas pressupõem que o endereço de email do cliente (ou SSN ou seja qual for) é único? Ou você tem alguma parte do aplicativo que soma números de cartão de crédito de somas de verificação, que seria interrompida se você redefinir todos eles para 0000 0000 0000 0000? Ou o seu sistema de telefonia pressupõe que um cliente '

Basicamente, configurar qualquer ferramenta para fazer isso será tão ou mais trabalhos do que apenas escrever seu próprio script, usando seu conhecimento do aplicativo. No meu site, simplesmente adotamos a política de que quem adiciona uma coluna com esses dados atualize o script para anonimá-lo ao mesmo tempo, após uma auditoria inicial para encontrar todas essas colunas e escrever a versão 1.


1
Eu sei que existem ferramentas comerciais, pois em um local de trabalho anterior, houve uma iniciativa (falha) de usar uma para nossos dbs Oracle. (Eu não estava envolvido com esse projeto, então não conheço os motivos da falha. Suspeito que configurar uma ferramenta de mascaramento de dados para um banco de dados herdado seja uma tarefa muito tediosa, como você sugere).
Testerab

3
Ah, eu espero que alguém lhe venda algo que afirma ser isso, mas, como eu disse, configurá-lo será mais trabalhoso do que escrever seu próprio no SQL, porque você terá que aprender primeiro o seu DSL hokey!
Gaius

5

Se o seu banco de dados é pequeno, possui um modelo de dados simples e é bem compreendido pelos DBAs atuais - o script "pode" ser a resposta. No entanto, o esforço (e o custo) de analisar e mascarar manualmente os bancos de dados típicos pode sair do controle rapidamente, à medida que os requisitos mudam, a funcionalidade é adicionada e os desenvolvedores / DBAs vêm e vão.

Embora eu não conheça nenhum produto de máscara de dados de código aberto, existem ofertas comerciais razoavelmente abrangentes, relativamente fáceis de usar e que podem ser surpreendentemente razoáveis ​​em termos de custo. Muitos deles incluem capacidade de descoberta pronta para identificar e classificar dados confidenciais (SSN, cartões de crédito, números de telefone), além de funcionalidade para manter as somas de verificação, formatação de endereço de email, agrupamento de dados, etc., para que os dados mascarados parece e se sente real.

Mas você não precisa aceitar minha palavra (reconhecidamente tendenciosa). Pergunte aos analistas do setor, como Gartner ou Forrester, que têm vários relatórios imparciais disponíveis sobre máscaras que podem ajudar.

Esperamos que esses comentários o incentivem a considerar a exploração de produtos comerciais, bem como o desenvolvimento interno de scripts. No final das contas, o mais importante é proteger os dados confidenciais que muitos de nós veem dia após dia que realmente não precisamos ver para realizar nosso trabalho - colocando a nós e as pessoas cujos dados pessoais dados que mantemos em risco.

Kevin Hillier, especialista sênior em integração, Camouflage Software Inc.


1
Sei que você não quer vender seu próprio produto, mas seria útil se você pudesse citar alguns produtos comerciais ou apontar alguns conselhos específicos?
testerab 31/01

1
Entendo que você trabalha para esta empresa e que provavelmente deseja recomendar seu próprio produto, e não sou contra isso, mas por causa do sig parece um anúncio embutido ostentoso, em vez de "Eu sei do que estou falando , porque é o que eu faço "... sou mais persuasivo de" use blá blá blá (Divulgação completa: trabalho neste produto) porque blá blá blá "e não coloque seu nome no final. Se quisermos seus dados pessoais, podemos clicar em seu perfil e ler esse sinal e clicar no link lá.
Jcolebrand

5

Nunca vi esse item, mas, tendo trabalhado com alguns conjuntos de dados confidenciais no meu tempo, a principal coisa que precisa ser embaralhada é a identidade das pessoas ou as informações de identificação pessoal. Isso deve aparecer apenas em alguns lugares do banco de dados.

Sua operação de mascaramento deve reter as propriedades estatísticas e os relacionamentos dos dados e provavelmente precisa reter os códigos de referência reais (ou pelo menos algum tipo de mecanismo de tradução controlado) para que você possa reconciliá-los com os dados reais.

É possível obter esse tipo de coisa, obtendo uma lista distinta dos nomes nos campos e substituindo-a por algo como FirstNameXXXX (onde XXXX é um número de sequência, um para cada valor distinto). Números de cartão de crédito e informações semelhantes que poderiam ser usadas para roubo de identidade provavelmente não são possíveis em um ambiente de desenvolvimento, mas você só precisa de números reais se estiver testando sistemas de processamento de pagamentos - normalmente o fornecedor fornecerá códigos especiais para contas falsas.

Não é particularmente difícil escrever procedimentos de anonimização desse tipo, mas você precisará concordar exatamente o que precisa ser anonimizado com a empresa. Se necessário, passe pelo campo do banco de dados por campo. Pedir sim / não fornecerá falsos positivos que você não deseja. Peça ao representante comercial que explique o motivo ou as consequências ou implicações regulatórias de não anonimizar dados específicos.


3

Eu tive a mesma tarefa há algumas semanas. avaliamos alguns sistemas de software, mas a maioria deles é apenas para exatamente um tipo de banco de dados, por exemplo, oracle e eles geralmente são muito complicados de usar ... portanto, não é a coisa mais agradável para avaliar isso. Demorou semanas.

Decidimos comprar a versão profissional do pacote de mascaramento de dados, pois era a mais fácil de usar. Também possui possibilidades interessantes para mascarar dados, por exemplo, você pode alterar os endereços de e-mail para reais, por exemplo ... @ siemens.com para mike.miller@seimsen.com.

Você pode experimentá-lo gratuitamente por cerca de 500 (?) Registros, tanto quanto me lembro.

Aqui está o link http://www.data-masking-tool.com/


1
Apenas um ponto de dados: no momento da redação deste documento, a ferramenta de mascaramento de dados custa apenas US $ 1.000.
Michael Teper

2

Minha maneira de fazer isso:

  1. Crie um novo banco de dados com apenas visualizar e selecionar direitos para os usuários
  2. Crie visualizações em tabelas que devem ser visíveis em outros bancos de dados
  3. Mascarar colunas que precisam ser ocultadas por: repeat ('*', char_length ( column to be masked))

2

Eu declarei esse caminho pela primeira vez há vários anos e, desde então, construí uma consultoria baseada nessa prática.

Estou assumindo que o objetivo é criar dados de teste para uso em ambientes de teste em que as pessoas que acessam os dados não têm direitos para visualizar as informações de produção.

A primeira coisa a estabelecer é exatamente quais elementos de dados você precisa mascarar e, para isso, é melhor começar com uma ferramenta de descoberta de dados como o Schema Spy (código-fonte aberto) e você precisará do driver jdbc relevante para esta tarefa, mas é uma etapa muito útil no processo.

O Talend Open Studio é uma das melhores ferramentas que usei nos últimos anos para executar algumas das funções ETL e você também poderá fazer algumas práticas básicas de mascaramento, substituindo valores por um aleatório ou. Pesquise / substitua - para manter a consistência - usando o componente de mapa.

Mas se você está procurando uma ferramenta de mascaramento de dados real, não encontrei uma ferramenta de código aberto adequada. Se você tiver um orçamento muito moderado para as ferramentas, sugiro o Data Masker, mas você precisará importar e exportar através do MS SQL ou Oracle, pois ele se conecta somente através desses protocolos.

Confira http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset para obter informações sobre mascaramento de dados, metodologia de mascaramento de dados, descoberta de dados e dados de teste gestão. Há também um blog útil em http://www.dataobfuscation.com.au


1

Existe uma ferramenta disponível no Mercado da Informatica, chamada Informatica ILM (TDM). Isso usa o PowerCenter como backone para ETL e mascara dados com diferentes opções de máscara disponíveis. Embora você precise de um analista de dados ou de uma PME que possa entender como os dados devem ser mascarados. A ferramenta em si não fornece informações sobre quais campos devem ser mascarados; no entanto, existe um algoritmo, procedimento ou processo interno para identificar campos de dados sensíveis, como Nome, colunas de ID com número, cartão de crédito, número de SSN, número de conta etc.


Além disso, o Informatica ILM TDM permite gerar subconjuntos de dados. Assim, você pode agrupar os dados e mascará-los ou Ocultar todos os dados e, em seguida, agrupá-los conforme a necessidade da empresa.
Awadhesh Yona

1

Este ano, tenho a oportunidade de trabalhar com o IBM Optim que afirma fazer o que é solicitado. Não é gratuito, mas funciona bem.


1

O que eu mais gosto é o IRI FieldShield ( https://www.iri.com/products/fieldshield ) em termos de versatilidade (a maioria das funções de mascaramento de dados), velocidade (mecanismo CoSort para movimentação de dados internos) e ergonomia (trabalhos simples em 4GL suportado em sua GUI Eclipse com toneladas de conexões de banco de dados e arquivo). Em termos de preço, trata-se de metade da IBM e da Informatica, embora também esteja disponível em um conjunto maior de integração de dados para transformação, migração e BI de "grandes" dados. Portanto, também não é gratuito, mas usa código-fonte aberto (o IDE e pode usar OpenSSL e GPG) e os scripts são executados no Windows, Linux e outros tipos de Unix.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.