Algoritmo de triturador de arquivos


8

Como parte da programação do sistema de aprendizagem, pretendo implementar um triturador de arquivos. A maneira mais simples (e provavelmente vista como ingênua) seria substituir os bytes de dados por zeros (eu sei que o SO divide os arquivos e substituirei bytes em todos esses pedaços). Mas quando eu pesquiso sobre esse assunto, fico surpreso ao encontrar vários algoritmos de passagem, alguns chegando a 35!

Alguém poderia elucidar o benefício do passe múltiplo, por favor? Não consegui encontrar nenhuma explicação.

obrigado


1
Você pode querer ler este: stackoverflow.com/questions/4448772
Blrfl

Respostas:


14

Imagine um disco físico armazenando o valor binário 0101. Fisicamente, no disco, as cobranças existem como valores reais, que são arredondados para cima ou para baixo pelo controlador de disco

binário -> carga física

0 1 0 1 -> 0,1 0,9 0,1 0,9

Se você sobrescrever os dados com zeros, alguma carga residual permaneceria em relação aos valores anteriores, portanto, neste exemplo simples, os novos valores serão

binário -> físico

0 0 0 0 -> 0,01 0,09 0,01 0,09

Um equipamento sensível o suficiente para ler essas cobranças em alta resolução pode ser usado para extrair essa "sombra" dos dados substituídos. É por isso que reescrever várias vezes (e usar valores aleatórios) ajuda a obscurecer os dados.


-1, não, não é. Temos pressionado os limites dos discos há tanto tempo que entramos inequivocamente no domínio da física quântica. Essa suposição analógica simplesmente não se sustenta mais. Cada domínio magnético (grão) em um prato aponta em uma direção e apenas uma. Existem apenas algumas centenas de grãos por bit, no máximo, eles estão fortemente acoplados e nem são resfriados. Além disso, os bits reais são transformados por uma função PRML e ECC, portanto, você não pode nem dizer diretamente a qual bit um grão individual corresponde. Basicamente, discos de 1 TB + são possíveis porque esse resíduo agora é totalmente usado.
MSalters

3
@MSalters - Você está assumindo que todos os discos em uso são assim. O WD ainda cria discos que não utilizam isso. A questão era por que usar 35 passes. É para obscurecer os dados pelas razões mostradas. Até que as unidades de estilo antigo não sejam mais usadas, esse tipo de destruidor é necessário. O que está faltando é que novos controladores não oferecem o controle de granulação fina sobre o hardware. Leis projetadas para impedir a destruição de evidências levaram a controladores que não substituem as áreas usadas anteriormente até que não tenham outra escolha.
perfil completo de SoylentGray

4
@MSalters, se é necessário é irrelevante. Essa é a resposta correta para a pergunta feita pelo OP .
Caleb

@ MSalters, sim, o grão inteiro aponta em uma direção, mas o eixo de quantização pode diferir de grão para grão, induzindo alguma variação. Isso seria afetado por flutuações térmicas, flutuações magnéticas da cabeça de leitura passando ou um grão vizinho sendo invertido.
precisa saber é o seguinte

@ Chade: Todos os materiais magnéticos têm grãos. A matemática simples prova que os discos da WD usam algumas centenas de grãos por bit, dado o tamanho e a capacidade de seus pratos. Você pode ficar confuso com a mídia padronizada. Esses intencionalmente delinear grãos para reduzir o acoplamento. Mídia não padronizada apenas possui grãos distribuídos aleatoriamente.
MSalters

7

A eliminação de várias passagens é necessária para destruir dados em dispositivos de armazenamento magnético. Os dados podem ser recuperados com o equipamento certo, mesmo que tenham sido substituídos por outra sequência de 1s e 0s das camadas abaixo ou no meio.

No entanto, existem vozes na internet que afirmam que o apagamento multipass não é mais necessário, pois a densidade de dados dos discos rígidos modernos aumentou 10.000 vezes.


1
De nada. Pena que você não tem o privilégio voto-up ainda =)
Falcon

0

Dizem que especialistas em equipamentos especiais podem reconstruir uma unidade formatada. Portanto, o conselho é substituir os dados na unidade várias vezes com padrões diferentes (aleatórios).


0

A substituição de dados com 0s em várias passagens só faz sentido para dispositivos de armazenamento magnético, por causa do que @pufferfish disse. Para SSD e outros mecanismos de armazenamento flash, isso falha, consulte http://www.usenix.org/events/fast11/tech/full_papers/Wei.pdf

Moral da história: lidar com problemas de hardware em software pode mudar quando a tecnologia de hardware muda, embora a API não mude.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.