Resposta curta
É impossível garantir um longo período de tempo por causa da entropia (também chamada morte!). Os dados digitais decaem e morrem, como qualquer outra coisa no universo. Mas isso pode ser mais lento.
Atualmente, não existe uma maneira à prova de falhas e cientificamente comprovada para garantir mais de 30 anos de arquivamento de dados a frio. Alguns projetos têm como objetivo fazer isso, como o projeto Rosetta Disks do museu Long Now , embora ainda sejam muito caros e com baixa densidade de dados (cerca de 50 MB).
Enquanto isso, você pode usar mídias ópticas resistentes e cientificamente comprovadas para armazenamento a frio, como o Blu-ray Disc HTL como o da Panasonic, ou DVD + R de nível de arquivo como o Verbatim Gold Archival e mantê-las em caixas herméticas em um ponto fraco (evite alta temperatura) e fora da luz.
Também seja REDUNDANTE : faça várias cópias de seus dados (pelo menos 4) e calcule hashes para verificar regularmente se está tudo bem, e a cada poucos anos você deve reescrever seus dados em novos discos. Além disso, use muitos códigos de correção de erros , pois eles permitirão reparar seus dados corrompidos!
Resposta longa
Por que os dados estão corrompidos com o tempo? A resposta está em uma palavra: entropia . Essa é uma das forças primárias e inevitáveis do universo, que faz com que os sistemas se tornem cada vez menos ordenados no tempo. A corrupção de dados é exatamente isso: uma desordem na ordem dos bits. Então, em outras palavras, o Universo odeia seus dados .
Lutar contra a entropia é exatamente como combater a morte: é provável que você nunca tenha sucesso. Mas, você pode encontrar maneiras de retardar a morte, assim como a entropia. Você também pode enganar a entropia reparando as corrupções (em outras palavras: você não pode parar as corrupções, mas pode reparar depois que elas ocorrerem se você tiver tomado medidas antes!). Como qualquer coisa sobre vida ou morte, não há uma bala mágica, nem uma solução para todos, e as melhores soluções exigem que você se envolva diretamente na curadoria digital de seus dados. E mesmo se você fizer tudo corretamente, não há garantia de manter seus dados em segurança, mas apenas maximizar suas chances.
Agora as boas notícias: agora existem maneiras bastante eficientes de manter seus dados, se você combinar mídias de armazenamento de boa qualidade e boas estratégias de arquivamento / curadoria : você deve projetar para falhas .
Quais são as boas estratégias de curadoria? Vamos esclarecer uma coisa: a maioria das informações que você encontrará será sobre backups, não sobre arquivamento. A questão é que a maioria das pessoas transfere seu conhecimento sobre estratégias de backup para o arquivo e, portanto, muitos mitos são agora ouvidos com frequência. De fato, armazenar dados por alguns anos (backup) e armazenar os dados pelo maior tempo possível ao longo de décadas, no mínimo (arquivamento) são objetivos totalmente diferentes e, portanto, requerem ferramentas e estratégias diferentes.
Felizmente, existem muitas pesquisas e resultados científicos, por isso aconselho a me referir a esses trabalhos científicos em vez de fóruns ou revistas. Aqui, resumirei algumas de minhas leituras.
Além disso, desconfie de reivindicações e estudos científicos não independentes , alegando que esse ou aquele meio de armazenamento é perfeito. Lembre-se do famoso projeto da BBC Domesday: «O Livro Digital Domesday dura 15 anos e não 1000» . Sempre verifique os estudos com documentos realmente independentes e, se não houver, assuma sempre que o meio de armazenamento não é bom para arquivamento.
Vamos esclarecer o que você está procurando (da sua pergunta):
Arquivamento de longo prazo : você deseja manter cópias de seus dados "pessoais" sensíveis e irreproduzíveis. O arquivamento é fundamentalmente diferente de um backup , conforme também explicado aqui : os backups são para dados técnicos dinâmicos que são atualizados regularmente e, portanto, precisam ser atualizados em backups (isto é, SO, layout de pastas de trabalho etc.), enquanto os arquivos são dados estáticos que você provavelmente escreveria apenas uma vez e apenas leria de tempos em tempos . Os arquivos são para dados intemporais , geralmente pessoais.
Armazenamento a frio : você deseja evitar a manutenção de seus dados arquivados o máximo possível. Essa é uma restrição GRANDE, pois significa que o meio deve usar componentes e uma metodologia de escrita que permaneçam estáveis por um período muito longo, sem qualquer manipulação de sua parte e sem exigir nenhuma conexão com um computador ou fonte elétrica.
Para facilitar nossa análise, primeiro estudemos as soluções de armazenamento a frio e depois as estratégias de arquivamento a longo prazo.
Meios de armazenamento a frio
Definimos acima como deve ser um bom meio de armazenamento a frio: ele deve reter os dados por um longo tempo sem nenhuma manipulação necessária (é por isso que é chamado de "frio": você pode simplesmente armazená-lo em um armário e não precisa conectá-lo um computador para manter os dados).
O papel pode parecer o meio de armazenamento mais resistente da Terra, porque geralmente encontramos manuscritos muito antigos desde a antiguidade. No entanto, o papel sofre com as principais desvantagens: primeiro, a densidade de dados é muito baixa (não pode armazenar mais do que ~ 100 KB em um papel, mesmo com caracteres minúsculos e ferramentas de computador) e diminui com o tempo sem nenhuma maneira de monitorá-lo: papel , assim como os discos rígidos, sofrem corrupção silenciosa. Mas, embora você possa monitorar corrupções silenciosas nos dados digitais, não no papel. Por exemplo, você não pode garantir que uma imagem retenha as mesmas cores por apenas uma década: as cores serão degradadas e você não poderá encontrar quais eram as cores originais. Claro, você pode selecionar suas fotos se você é um profissional em restauração de imagens, mas isso consome muito tempo, enquanto que com dados digitais, você pode automatizar esse processo de curadoria e restauração.
Discos rígidos (HDDs) são conhecidos para ter uma vida útil média de 3 a 8 anos: eles não apenas degrada com o tempo, eles estão garantidos para, eventualmente, morrer (ou seja: inacessível). As curvas a seguir mostram essa tendência para todos os HDDs morrerem a uma taxa impressionante:
Curva da banheira, mostrando a evolução da taxa de falhas do disco rígido, considerando o tipo de erro (também aplicável a qualquer dispositivo de engenharia):
Curva mostrando a taxa de falha do disco rígido, todos os tipos de erro mesclados:
Fonte: Backblaze
Você pode ver que existem três tipos de HDDs relativamente à sua falha: os que morrem rapidamente (por exemplo: erro de fabricação, HDDs de má qualidade, falha na cabeça etc.), os que morrem com taxa constante (boa fabricação, eles morrem por vários " razões normais ", esse é o caso da maioria dos HDDs) e, finalmente, os robustos que vivem um pouco mais do que a maioria dos HDDs e acabam morrendo logo após os" normais "(por exemplo: HDs sortudos, pouco usados, condições ambientais ideais, etc.). Assim, você tem a garantia de que seu HDD morrerá.
Por que os HDDs morrem com tanta frequência? Quero dizer, os dados são gravados em um disco magnético e o campo magnético pode durar décadas antes de desaparecer. A razão pela qual eles morrem é porque o meio de armazenamento (disco magnético) e o hardware de leitura (placa eletrônica + cabeça giratória) são acoplados : eles não podem ser dissociados, você não pode simplesmente extrair o disco magnético e lê-lo com outra cabeça, porque primeiro a placa eletrônica (que converte os dados físicos em digital) é diferente para quase cada disco rígido (mesmo da mesma marca e referência, depende da fábrica de origem), e o mecanismo interno da cabeça giratória é tão complexo que hoje em dia é impossível para um humano colocar perfeitamente uma cabeça giratória em discos magnéticos sem matá-los.
Além disso, sabe-se que os HDDs desmagnetizam com o tempo se não forem usados (incluindo SSD). Portanto, você não pode simplesmente armazenar dados em um disco rígido, armazená-los em um armário e pensar que eles reterão dados sem nenhuma conexão elétrica: você precisa conectar seu HDD a uma fonte elétrica pelo menos uma vez por ano ou por par de anos . Portanto, os HDDs claramente não são adequados para armazenamento a frio.
Fitas magnéticas : geralmente são descritas como as principais necessidades de backups e, por extensão, de arquivamento. O problema das fitas magnéticas é que elas são MUITO sensíveis: as partículas de óxido magnético podem ser facilmente deterioradas pelo sol, água, ar, arranhões, desmagnetizadas pelo tempo ou por qualquer dispositivo eletromagnético ou simplesmente cair com o tempo ou imprimir . É por isso que eles geralmente são usados apenas em datacenters por profissionais. Além disso, nunca foi provado que eles podem reter dados por mais de uma década. Então, por que eles são frequentemente recomendados para backups? Como costumavam ser baratos: antigamente, custava 10 a 100 vezes mais barato usar fitas magnéticas do que os HDDs, e os HDDs tendiam a ser muito menos estáveis do que agora. Portanto, as fitas magnéticas são recomendadas principalmente para backups devido à relação custo-benefício, não por causa da resiliência, que é o que mais nos interessa quando se trata de arquivar dados.
Os cartões CompactFlash e Secure Digital (SD) são conhecidos por serem bastante resistentes e robustos, capazes de sobreviver a condições catastróficas .
Os cartões de memória na maioria das câmeras são praticamente indestrutíveis, segundo a revista Digital Camera Shopper. Cinco formatos de cartão de memória sobreviveram a serem fervidos, pisoteados, lavados e mergulhados em café ou cola.
No entanto, como qualquer outro meio magnético, ele depende de um campo elétrico para reter os dados e, portanto, se o cartão ficar sem suco, os dados poderão ser totalmente perdidos. Portanto, não é um ajuste perfeito para armazenamento a frio (pois você precisa reescrever todos os dados no cartão para atualizar o campo elétrico), mas pode ser um bom meio para backups e arquivamento de curto ou médio prazo.
Mídias ópticas: as mídias ópticas são uma classe de mídias de armazenamento que dependem do laser para ler os dados, como CD, DVD ou Blu-ray (BD). Isso pode ser visto como uma evolução do papel, mas escrevemos os dados em um tamanho tão pequeno que precisávamos de um material mais preciso e resistente que o papel, e os discos ópticos são exatamente isso. As duas maiores vantagens dos meios ópticos é que o meio de armazenamento é dissociado do hardware de leitura (ou seja, se o seu leitor de DVD falha, você sempre pode comprar outro para ler seu disco) e é baseado em laser, o que o torna universal e universal. prova do futuro (ou seja, desde que você saiba como fazer um laser, você sempre pode ajustá-lo para ler os bits de um disco óptico por emulação, assim como o CAMILEON fez para o Projeto BBC Domesday ).
Como qualquer tecnologia, as novas iterações não apenas oferecem maior densidade (depósito), mas também melhor correção de erros e melhor resiliência contra a deterioração ambiental (nem sempre, mas geralmente verdadeira). O primeiro debate sobre a confiabilidade do DVD foi entre o DVD-R e o DVD + R, e mesmo que o DVD-R ainda seja comum atualmente, o DVD + R é reconhecido por ser mais confiável e preciso . Atualmente, existem discos de DVD de arquivamento, feitos especificamente para armazenamento a frio, alegando que eles podem suportar no mínimo ~ 20 anos sem qualquer manutenção:
O DVD-R de arquivamento Verbatim Gold [...] foi classificado como o DVD-R mais confiável em um teste de estresse de longo prazo pela conceituada revista alemã c't (c't 16/2008, páginas 116-123 ) atingindo uma durabilidade mínima de 18 anos e uma durabilidade média de 32 a 127 anos (a 25 ° C, 50% de umidade). Nenhum outro disco chegou nem perto desses valores, o segundo melhor DVD-R tinha uma durabilidade mínima de apenas 5 anos.
Do LinuxTech.net .
Além disso, algumas empresas especializadas em muito longo de arquivo termo DVD e extensivamente comercializá-los, como o M-Disc a partir Millenniata ou o DataTresorDisc, alegando que eles podem conservar os dados por mais de 1000 anos, e verificado por alguns (não-independentes) estudos (de 2009) entre outros menos científicos .
Tudo isso parece muito promissor! Infelizmente, não há estudos científicos independentes suficientes para confirmar essas afirmações, e os poucos disponíveis não são tão entusiasmados:
A umidade (80% UR) e a temperatura (80 ° C) aceleraram o envelhecimento em vários DVDs durante 2000 horas (cerca de 83 dias) de teste, com verificação regular da legibilidade dos dados:
Traduzido da instituição francesa de arquivamento de dados digitais (Archives de France), estudo de 2012.
O primeiro gráfico mostra o DVD com uma lenta evolução da degradação. O segundo DVD com curvas de degradação rápida. E o terceiro é para DVDs especiais de "muito longo prazo", como M-Disc e DataTresorDisc. Como podemos ver, o desempenho deles não se encaixa perfeitamente nas reivindicações, sendo mais baixo ou igual aos DVDs padrão, que não são de arquivo!
No entanto, os discos ópticos inorgânicos, como o M-Disc e o DataTresorDisc, têm uma vantagem: são bastante insensíveis à degradação da luz:
Envelhecimento acelerado usando luz (750 W / m²) durante 240 horas:
São ótimos resultados, mas um DVD de arquivo como o Verbatim Gold Archival também obtém o mesmo desempenho e, além disso, a luz é o parâmetro mais controlável para um objeto: é muito fácil colocar o DVD em uma caixa ou armário fechado e, assim, removendo qualquer possível impacto da luz. Seria muito mais útil obter um DVD muito resistente à temperatura e umidade do que a luz.
Essa mesma equipe de pesquisa também estudou o mercado de Blu-ray para ver se haveria alguma marca com um bom meio para armazenamento a frio a longo prazo. Aqui está a descoberta deles:
A umidade e a temperatura aceleraram o envelhecimento em várias marcas de Blu-ray, sob os mesmos parâmetros dos DVDs:
O envelhecimento acelerou a luz em várias marcas de BluRays, mesmos parâmetros:
Traduzido a partir deste estudo da Archives de France, 2012.
Dois resumos de todas as descobertas (em francês) aqui e aqui .
Em suma, o melhor disco Blu-ray (da Panasonic) apresentou desempenho semelhante ao melhor DVD de arquivamento no teste de umidade + temperatura, sendo praticamente insensível à luz! E este disco Blu-ray não é nem de arquivo. Além disso, os discos Blu-ray usam um código aprimorado de correção de erros do que os DVDs (eles mesmos usando uma versão aprimorada em relação aos CDs), o que minimiza ainda mais os riscos de perda de dados. Assim, parece que alguns discos BluRay podem ser uma opção muito boa para armazenamento a frio.
E, de fato, algumas empresas estão começando a trabalhar em discos Blu-ray de armazenamento de alta densidade, como Panasonic e Sony, anunciando que poderão oferecer entre 300 GB e 1 TB de armazenamento, com uma vida útil média de 50 anos. Além disso, grandes empresas estão se voltando para mídias ópticas para armazenamento a frio (porque consome muito menos recursos, pois você pode armazená-las a frio sem qualquer suprimento elétrico), como o Facebook, que desenvolveu um sistema robótico para usar discos Blu-ray como "frios". armazenamento " para dados que seu sistema raramente acessa.
Iniciativa de arquivamento do Long Now: Existem outras pistas interessantes, como o projeto Rosetta Disc, do museu Long Now , que é um projeto para escrever páginas do Genesis em escala microscópica em todos os idiomas do planeta para os quais o Genesis foi traduzido. Este é um ótimo projeto, que é o primeiro a oferecer um meio que permite armazenar 50 MB para armazenamento a frio de muito muito longo prazo (já que está escrito em carbono) e com acesso à prova de futuro, pois você só precisa de uma lupa para acessar o dados (sem especificações de formato estranhas nem problemas tecnológicos para lidar, como o feixe violeta do Blu-ray, só precisa de uma lente de aumento!). No entanto, eles ainda são feitos manualmente e, portanto, estimados em cerca de US $ 20 mil, o que é um pouco demais para um esquema de arquivamento pessoal, eu acho.
Soluções baseadas na Internet: Mais um meio para armazenar a frio seus dados está na rede. No entanto, as soluções de backup em nuvem não se encaixam bem, pois a principal preocupação é que as empresas de hospedagem em nuvem possam não sobreviver enquanto você desejar manter seus dados. Outras razões incluem o fato de que é horrivelmente lento o backup (uma vez que é transferido pela Internet) e a maioria dos provedores exige que os arquivos também existam no sistema para mantê-los online. Por exemplo, o CrashPlan e o Backblaze excluirão permanentemente os arquivos que não são vistos pelo menos uma vez no seu computador nos últimos 30 dias. Portanto, se você desejar fazer o upload de dados de backup que você armazena apenas em discos rígidos externos, será necessário conectar seu USB HDD pelo menos uma vez por mês e sincronize com sua nuvem para redefinir a contagem regressiva. Contudo, alguns serviços em nuvem oferecem para manter seus arquivos indefinidamente (contanto que você pague, é claro) sem uma contagem regressiva, como o SpiderOak. Portanto, tenha muito cuidado com as condições e o uso da solução de backup baseada em nuvem que você escolher.
Uma alternativa para os provedores de backup na nuvem é alugar seu próprio servidor privado on-line e, se possível, escolher um com espelhamento / backup automático de seus dados em caso de falha de hardware do lado deles (alguns garantem até dados perdidos em seus contratos , mas é claro que é mais caro). Essa é uma ótima solução, primeiro porque você ainda possui seus dados e, em segundo lugar, porque não precisará gerenciar as falhas do hardware, essa é a responsabilidade do seu host. E se um dia seu host falir, você ainda poderá recuperar seus dados (escolha um host sério para que ele não seja desligado durante a noite e o notifique com antecedência, talvez você possa pedir para colocar isso no contrato), e rehost em outro lugar.
Se você não quer ter problemas para configurar seu próprio servidor online privado, e se puder pagar, a Amazon oferece um novo serviço de arquivamento de dados, chamado Glacier . O objetivo é exatamente armazenar seus dados a frio a longo prazo: portanto, custa muito armazenar dados em uma geleira, mas custa ainda mais recuperar esses dados, pois esse serviço é feito para armazenar dados fora do alcance , para não manter os dados que você deseja acessar com frequência. Isso significa que este serviço cita preços para gravar dados, mas também para lê-los. Este serviço tem um custo enorme, mas pode ser um bom negócio para alguns dos seus dados mais sensíveis (por exemplo: se você tiver alguns arquivos de texto ou imagens MUITO sensíveis, pois esse tipo de dados geralmente é de tamanho pequeno, não custará muito para armazenar em uma geleira).
Falhas no armazenamento a frio : no entanto, existe uma grande falha em qualquer meio de armazenamento a frio: não há verificação de integridade, porque os meios de armazenamento a frio NÃO PODEM verificar automaticamente a integridade dos dados (eles podem simplesmente implementar esquemas de correção de erros para "curar" um pouco de o dano após a corrupção ocorreu, mas não pode ser evitado nem gerenciado automaticamente!) porque, ao contrário de um computador, não existe uma unidade de processamento para calcular / registrar em diário / verificar e corrigir o sistema de arquivos. Considerando que, com um computador e várias unidades de armazenamento, você pode verificar automaticamente a integridade de seus arquivos e espelhar automaticamente em outra unidade, se necessário, se ocorrer alguma corrupção em um arquivo de dados (desde que você tenha várias cópias do mesmo arquivo).
Arquivamento a longo prazo
Mesmo com as melhores tecnologias atualmente disponíveis, os dados digitais só podem ser armazenados a frio por algumas décadas (cerca de 20 anos). Assim, a longo prazo, você não pode confiar apenas no armazenamento a frio: você precisa configurar uma metodologia para o seu processo de arquivamento de dados para garantir que seus dados possam ser recuperados no futuro (mesmo com mudanças tecnológicas) e que minimize os riscos de perder seus dados. Em outras palavras, você precisa se tornar o curador digital de seus dados, reparando corrupções quando elas acontecem e recriar novas cópias quando necessário.
Não há regras infalíveis, mas aqui estão algumas estratégias de curadoria estabelecidas e, em particular, uma ferramenta mágica que facilitará seu trabalho:
- Princípio de redundância / replicação : A redundância é a única ferramenta que pode reverter os efeitos da entropia , que é um princípio baseado na teoria da informação. Para manter os dados, você precisa duplicar esses dados. Os códigos de erro são exatamente uma aplicação automática do princípio de redundância. No entanto, você também precisa garantir que seus dados sejam redundantes: várias cópias dos mesmos dados em diferentes discos, várias cópias em diferentes mídias (para que, se uma mídia falhar devido a problemas intrínsecos, há poucas chances de que as outras mídias diferentes também falhem ao mesmo tempo), etc. , você sempre deve ter pelo menos três cópias de seus dados, também chamadas de redundância tridimensional em engenharia, para que, se suas cópias forem corrompidas, você possa dar um voto majoritário simples para reparar seus arquivos de suas 3 cópias. Lembre-se sempre do conselho da bússola do marinheiro:
É inútil trazer duas bússolas, porque se uma delas der errado, você nunca poderá saber qual delas está correta ou se ambas estão erradas. Sempre pegue uma bússola ou mais de três.
Códigos de correção de erros : esta é a ferramenta mágica que tornará sua vida mais fácil e mais segura. Os códigos de correção de erros (ECCs) são uma construção matemática que gera dados que podem ser usados para reparar seus dados. Isso é mais eficiente, porque os ECCs podem reparar muito mais dados usando muito menos espaço de armazenamento do que a replicação simples (ou seja, fazendo várias cópias de seus arquivos) e podem até ser usados para verificar se o seu arquivo possui algum corrupção e até localizar onde estão essas corrupções. De fato, essa é exatamente uma aplicação do princípio de redundância, mas de uma maneira mais inteligente que a replicação. Atualmente, essa técnica é amplamente utilizada em qualquer comunicação de longo alcance, como 4G, WiMax e até nas comunicações espaciais da NASA. Infelizmente, embora os ECCs sejam onipresentes nas telecomunicações, eles não estão em reparo de arquivos, talvez porque seja um pouco complexo. No entanto, alguns softwares estão disponíveis, como o conhecido (mas agora antigo) PAR2, DVD Disaster (que oferece adicionar códigos de correção de erros em discos ópticos) e pyFileFixity (que desenvolvo em parte para superar as limitações e problemas do PAR2). Também existem sistemas de arquivos que opcionalmente implementam o Reed-Solomon, como o ZFS para Linux ou o ReFS para Windows, que são tecnicamente uma generalização do RAID5.
Verifique regularmente a integridade dos seus arquivos: Hash seus arquivos e verifique-os periodicamente (ou seja, uma vez por ano, mas isso depende do meio de armazenamento e das condições ambientais). Quando você perceber que seus arquivos estão corrompidos, é hora de reparar os ECCs que você gerou, se tiver feito isso, e / ou fazer uma nova cópia nova de seus dados em um novo meio de armazenamento. Verificar dados, reparar a corrupção e fazer novas cópias é um ciclo de curadoria muito bom, que garantirá a segurança dos seus dados. A verificação em particular é muito importante porque as cópias dos seus arquivos podem ficar corrompidas silenciosamente e, se você copiar as cópias que foram violadas, você terá arquivos totalmente corrompidos. Isso é ainda mais importante com mídias de armazenamento a frio, como discos ópticos, que NÃO PODEM verificar automaticamente a integridade dos dados (eles já implementam ECCs para curar um pouco, mas eles não podem verificar nem criar novas cópias automaticamente, esse é o seu trabalho!). Para monitorar alterações nos arquivos, você pode usar o script rfigc.py depyFileFixity ou outras ferramentas UNIX, como md5deep . Você também pode verificar o status de funcionamento de alguns meios de armazenamento, como discos rígidos, usando ferramentas como o Hard Drive Sentinel ou os smartmontools de código aberto .
Armazene as mídias dos seus arquivos em locais diferentes (com pelo menos uma cópia fora de sua casa!) Para evitar eventos catastróficos da vida real, como enchentes ou incêndios. Por exemplo, um disco óptico em seu trabalho ou um backup baseado em nuvem pode ser uma boa idéia para atender a esse requisito (mesmo que os provedores de nuvem possam ser desligados a qualquer momento, desde que você tenha outras cópias, você estará seguro , os provedores de nuvem servirão apenas como um arquivo externo em caso de emergência).
Armazene em recipientes específicos com parâmetros ambientais controlados : para meios ópticos, armazene longe da luz e em uma caixa estanque à água para evitar a umidade. Para discos rígidos e cartões SD, armazene em luvas anti-magnéticas para evitar eletricidade residual para violar a unidade. Você também pode armazenar em sacos / caixas herméticos e impermeáveis à água e em um freezer: temperaturas baixas desaceleram a entropia e você pode prolongar bastante a vida útil de qualquer meio de armazenamento como esse (apenas certifique-se de que a água ganha) não entre por dentro, caso contrário seu meio morrerá rapidamente).
Use um hardware de boa qualidade e verifique-o com antecedência (por exemplo: quando você compra um cartão SD, teste o cartão inteiro com software como o HDD Scan para verificar se está tudo bem antes de gravar seus dados). Isso é particularmente importante para as unidades ópticas, porque a qualidade delas pode alterar drasticamente a qualidade dos discos gravados, conforme demonstrado pelo estudo da Archives de France (um gravador de DVD ruim produzirá DVDs que durarão muito menos).
Escolha com cuidado os seus formatos de arquivo: nem todos os formatos são resistentes à corrupção, alguns são claramente fracos. Por exemplo, imagens .jpg podem ser totalmente quebradas e ilegíveis, alterando apenas um ou dois bytes. Mesmo para arquivos 7zip. Isso é ridículo, portanto, tenha cuidado com o formato dos arquivos que você arquivar. Como regra geral, o texto não criptografado é o melhor, mas se você precisar compactar, use zip não sólido e, para imagens, use JPEG2 (ainda não é de código aberto ...). Mais informações e críticas dos curadores profissionais digitais aqui , aqui e aqui .
Armazene juntamente com os arquivos de dados todos os softwares e especificações necessárias para ler os dados. Lembre-se de que as especificações mudam rapidamente e, portanto, no futuro, seus dados podem não ser mais legíveis, mesmo que você possa acessar o arquivo. Portanto, você deve preferir formatos e softwares de código aberto e armazenar o código-fonte do programa junto aos seus dados, para poder sempre adaptar o programa a partir do código-fonte para iniciar em um novo sistema operacional ou computador.
Muitos outros métodos e abordagens estão disponíveis aqui , aqui e em várias partes da Internet.
Conclusão
Eu aconselho a usar o que você pode ter, mas sempre respeite o princípio de redundância (faça 4 cópias!), E sempre verifique regularmente a integridade (para que você precise pré-gerar um banco de dados de hashes MD5 / SHA1 antecipadamente) e crie novos novos cópias em caso de corrupção. Se você fizer isso, tecnicamente poderá manter seus dados pelo tempo que desejar, independentemente da sua mídia de armazenamento. O tempo entre cada verificação depende da confiabilidade de suas mídias de armazenamento: se for um disquete, verifique a cada 2 meses, se for um HTL Blu-ray, verifique a cada 2/3 anos.
Agora, no ideal, aconselho que o armazenamento a frio use discos Blu-ray HTL ou discos de DVD de arquivo armazenados em caixas opacas à prova de água e armazenados em um local fresco. Além disso, você pode usar cartões SD e provedores baseados em nuvem, como o SpiderOak, para armazenar cópias redundantes de seus dados ou até discos rígidos, se for mais acessível.
Use muitos códigos de correção de erros , pois eles salvarão seu dia. Além disso, você pode fazer várias cópias desses arquivos de ECCs (mas várias cópias de seus dados são mais importantes do que várias cópias de ECCs, porque os arquivos de ECCs podem se reparar!).
Todas essas estratégias podem ser implementadas usando o conjunto de ferramentas que estou desenvolvendo (código aberto): pyFileFixity . De fato, essa ferramenta foi iniciada por essa discussão, depois de descobrir que não havia ferramenta gratuita para gerenciar completamente a fixidade do arquivo. Além disso, consulte o leia-me e o wiki do projeto para obter mais informações sobre correção de arquivos e curadoria digital.
Em uma nota final, eu realmente espero que mais pesquisa e desenvolvimento sejam dedicados a esse problema. Essa é uma questão importante para nossa sociedade atual, com mais e mais dados digitalizados, mas sem nenhuma garantia de que essa massa de informações sobreviverá por mais de alguns anos. Isso é bastante deprimente, e eu realmente acho que esse problema deve ser colocado muito mais à frente, para que isso se torne um ponto de marketing para construtores e empresas que fabricam dispositivos de armazenamento que podem durar as gerações futuras.
/ EDIT: leia abaixo para uma rotina prática de curadoria .