Estou começando a ver clientes com centenas de terabytes de dados (em instalações do SQL Server). Como o volume total de dados em algumas empresas se aproxima de frações significativas de um petabyte, eu gostaria de examinar a base de conhecimento coletivo existente para ver o que as pessoas que lidam com essa magnitude de dados estão fazendo para protegê-lo.
O problema óbvio é que o armazenamento de vários backups desses dados é proibitivamente caro, usando armazenamento de classe empresarial, diabos, até mesmo apenas RAID-5.
As opções que vejo são as seguintes:
- Crie uma cópia espelhada dos dados em outro datacenter e envie-os continuamente diferenças (usando qualquer mecanismo disponível para sua fonte de dados - por exemplo, envio de log ou espelhamento de banco de dados com o SQL Server)
- Faça backups regulares usando um algoritmo de compactação robusto (provavelmente adequado apenas se os dados forem adequados para serem fortemente compactados)
- Faça backups fragmentados das partes críticas / variáveis dos dados.
- Não faça backup dos dados e confie nos deuses da corrupção.
Estou vendo a opção nº 4 sendo adotada como padrão e, como especialista em HA / DR, é realmente assustador, mas o que aconselho como alternativa? Eu acho que o número 1 é a melhor abordagem, mas "acho que não" é a resposta usual quando são sugeridas alternativas além do número 4 e, possivelmente, do número 3.
Agora, é claro, depende da taxa de alteração e da criticidade dos dados. Não é necessário responder com isso, já que eu era responsável por todos os recursos de alta disponibilidade do SQL Server enquanto trabalhava na Microsoft, por isso sou versado nos argumentos 'depende' - essa é minha frase de efeito :-)
Eu ficaria muito interessado em ouvir as alternativas que eu perdi ou em saber que todo mundo está no mesmo barco e não há alternativa realista para gastar muito dinheiro em mais armazenamento.
Agradecemos antecipadamente - o devido crédito será dado a todas as respostas bem pensadas e expressas.