Estou prestes a reorganizar todos os meus HDDs nas caixas linux domésticas e gostaria de usar o mdadm raid para proteção de dados e sua flexibilidade para remodelar as matrizes. No entanto, antes de usar o mdadm para isso, gostaria de saber como ele lida com a podridão de bits . Especificamente, os tipos de roteamento de bits que não resultam no envio de mensagens de erro de leitura irrecuperáveis do disco rígido.
Dado que provavelmente usarei pelo menos 21 TB de HDDs em 8 discos nas e as várias cotações de probabilidade de falhas nos HDDs, estou pensando que, durante uma reconstrução a partir de uma única falha de disco, é provável que eu encontre alguma forma de apodrecimento de bits nos discos restantes. Se for um erro de leitura irrecuperável em uma das unidades, que a unidade realmente o relata como um erro, acredito que deve estar bem com o raid6 (não é?). No entanto, se os dados lidos no disco são ruins, mas não são relatados como tal pelo disco, não vejo como isso pode ser corrigido automaticamente, mesmo com o raid6. É com isso que precisamos nos preocupar? Dado o artigo É 2010 e o RAID5 ainda funcionae minhas próprias experiências bem-sucedidas em casa e no trabalho, as coisas não são necessariamente tão sombrias e sombrias quanto as palavras e o marketing nos fazem acreditar, mas eu odeio ter que restaurar os backups apenas porque um HDD falhou.
Dado que os padrões de uso serão, escreva no máximo algumas vezes e leia ocasionalmente, precisarei executar a limpeza de dados . Eu vejo no wiki do archlinux os comandos mdadm para limpeza de dados de uma matriz como
echo check > /sys/block/md0/md/sync_action
então para monitorar o progresso
cat /proc/mdstat
Parece-me que ele lerá todos os setores de todos os discos e verificará se os dados correspondem à paridade e vice-versa. Embora eu note que há muita ênfase nos documentos para dizer que há circunstâncias significativas em que a operação de "verificação" não será capaz de corrigir automaticamente, apenas detectar, e isso deixará o usuário corrigir.
Quais níveis de mdadm RAID devo escolher para maximizar minha proteção contra a podridão de bits e que manutenção e outras etapas de proteção devo executar? E do que isso não vai me proteger?
Edit: Eu não estou olhando para iniciar um RAID vs ZFS ou qualquer outra tecnologia QA. Eu quero saber especificamente sobre mdadm raid. É também por isso que estou perguntando no Unix e Linux e não no SuperUser .
Edit: é a resposta: o mdadm pode corrigir apenas os UREs relatados pelos sistemas de disco durante uma limpeza de dados e detectar a rotação silenciosa de bits durante uma limpeza, mas não pode / não corrigirá isso?