RAID-5: Dois discos falharam simultaneamente?

21

Temos um servidor Dell PowerEdge T410 executando o CentOS, com uma matriz RAID-5 contendo 5 discos SATA Seagate Barracuda de 3 TB. Ontem o sistema travou (não sei exatamente e não tenho logs).

Ao inicializar no BIOS do controlador RAID, vi que dos 5 discos, o disco 1 foi rotulado como "ausente" e o disco 3 foi rotulado como "degradado". Forcei o disco 3 a fazer backup e substitui o disco 1 por um novo disco rígido (do mesmo tamanho). O BIOS detectou isso e começou a reconstruir o disco 1 - no entanto, ficou travado em% 1. O indicador de progresso giratório não se moveu a noite toda; totalmente congelado.

Quais são minhas opções aqui? Existe alguma maneira de tentar reconstruir, além de usar algum serviço profissional de recuperação de dados? Como dois discos rígidos podem falhar simultaneamente assim? Parece excessivamente coincidência. É possível que o disco 1 tenha falhado e, como resultado, o disco 3 "ficou fora de sincronia?" Nesse caso, existe algum utilitário que eu possa usar para recuperá-lo "em sincronia?"

— Mike Furlender
fonte

20

Sim, grandes discos SATA tendem a fazer isso. (A reconstrução de 3 TB leva muitas horas enquanto você está exposto a falhas duplas). Portanto, isso é esperado e é por isso que o RAID-5 usando essa configuração não é absolutamente recomendado.

— MichelZ

9

De fato. Em um mundo ideal, as taxas de falha da unidade são distribuídas aleatoriamente. Na prática, isso não acontece - eles geralmente são comprados do mesmo lote e submetidos às mesmas tensões, o que significa que todos começam a chegar ao fim da vida útil ao mesmo tempo. Uma mudança repentina no carregamento pode facilmente ultrapassar vários limites, mesmo antes de começar a observar taxas de erro irrecuperáveis em discos SATA. Enfim - temo que as más notícias sejam, a menos que você consiga colocar uma dessas unidades online, é hora de fazer os backups.

— Sobrique

6

serverfault.com/questions/339128/…

— MichelZ

5

Eu sei que isso não ajuda muito agora, mas apenas para sua informação pessoal - o consenso geral é usar o RAID6 para unidades maiores que 1 TB (no máximo, quando falamos de 7200 rpm).

— 22414 pauska

2

O RAID 5 oferece tolerância a falhas, mas é uma opção de comprometimento - você tem resiliência N + 1, mas se possui unidades grandes, possui uma grande janela onde uma segunda falha pode ocorrer. O RAID-6 fornece tolerância a falhas N + 2, que geralmente é considerada boa (as chances de falha tripla são muito menores). No entanto, você também vai encontrar a taxa de falha dos discos mais caros (por exemplo, não é barato drives SATA)

— Sobrique

24

Depois que você aceitou uma resposta ruim , sinto muito pela minha opinião herética (que já salvou essas matrizes várias vezes).

Seu segundo disco com falha provavelmente tem um problema menor, talvez uma falha de bloco. Esta é a causa, porque o mau ferramenta de sincronização do seu mau firmware raid5 caiu sobre ele.

Você pode facilmente fazer uma cópia em nível de setor com uma ferramenta de clonagem de disco de baixo nível (por exemplo, gddrescue é provavelmente muito útil) e usar esse disco como seu novo disco3. Nesse caso, sua matriz sobreviveu com uma pequena corrupção de dados.

Sinto muito, provavelmente seja tarde demais, porque a essência da resposta ortodoxa neste caso: "falha múltipla em um ataque5, aqui está o apocalipse!"

Se você quiser um ataque muito bom e redundante, use o software raid no linux. Por exemplo, seu layout de dados de superbloqueio de ataques é público e documentado ... Sinto muito, pela minha outra opinião herética.

— peterh diz restabelecer Monica
fonte

8

Pena que isso tenha diminuído os votos, na verdade, ele tenta ajudar o OP a consertar a bagunça, diferente de alguns outros. +1

— Validade 23/07

3

@Validade não tenta resolver a bagunça, estende seus problemas. Um raid5 com blocos corrompidos queimados não causa dor, pois passa nas verificações de integridade, mas é degradado regularmente. Além disso, ele não teria idéia de quais dados estão corrompidos. Se fosse tão fácil quanto consertar um bloco, essa seria a solução padrão.

— 23914 JamesRyan

4

@ JamesRyan Concordo que isso causará alguns problemas posteriores e até concordo que existem problemas subjacentes aqui. No entanto, ele oferece uma solução válida sobre como recuperar algumas funcionalidades e, como o OP estava falando sobre especialistas em recuperação de dados, posso apenas assumir que eles não têm backups para recuperar seus dados de outra forma. No final, essa solução seria apenas parte de uma correção, uma vez que esse método reiniciasse o sistema, você provavelmente desejaria transferir o sistema de arquivos para 5 novos discos e, em seguida, fazer o backup importante.

— Vality 23/07

1

"Você pode facilmente fazer uma cópia em nível de setor de uma ferramenta de cópia em bloco" É isso mesmo que você queria escrever?

— Arnaud Meuret

1

@ MikeFurlender Acho que o hardware é mais rápido, mas proprietário e, portanto, quebradiço, pois você precisa obter o mesmo controlador exatamente no caso de falha. O RAID de software é independente do hardware. Veja btrfs e zfs.

— Martin Ueding

38

Você tem uma falha de disco duplo. Isso significa que seus dados se foram e você precisará restaurar a partir de um backup. É por isso que não devemos usar o RAID 5 em discos grandes. Você deseja configurar seu ataque, para ter sempre a capacidade de suportar duas falhas de disco, especialmente com grandes discos lentos.

— Manjericão
fonte

3

Há dois problemas com o RAID5. Um: o tempo de reconstrução de 3 TB, dado que uma unidade SATA lenta pode ser grande, aumentando as chances de uma falha composta. A outra é a taxa de erro de bits irrecuperável - a folha de especificações na maioria das unidades SATA possui 1/10 ^ 14, que são aproximadamente 12 TB de dados. Com um 5-way, 3B RAID, isso se torna quase inevitável quando uma reconstrução é necessária.

— Sobrique

1

Eu uso o RAID5 na minha matriz de 3 TB 5 unidades, eu estava tentando obter uma segunda matriz para usar como uma cópia replicada da primeira. Dessa forma, para eu perder os dados, seria necessário que mais de 1 disco falhasse em ambas as matrizes ao mesmo tempo (portanto, eu precisaria de 4 discos), mas ainda mantendo essa grande quantidade da capacidade disponível. Depois de ler isso, agora posso acelerar esse período para obter a segunda matriz.

— War

1

Ele provavelmente possui apenas um bloco inválido em seu disco3. Estou realmente me perguntando por que um administrador de sistemas profissional nunca ouviu falar de ferramentas de cópia em nível de bloco.

— peterh diz restabelecer Monica

1

@ Wardy, o raid 6 não te daria isso?

— 23914 Basil Basil

3

Não é uma resposta muito útil. Claro, com uma falha de disco duplo em um RAID 5, a chance de recuperação não é boa. Mas a maioria das falhas de disco duplo no RAID 5 provavelmente é apenas uma questão de um disco com defeito e alguns erros de leitura não corrigidos em outros discos. Nesse caso, a recuperação da maioria dos dados ainda é possível, dadas as ferramentas corretas. Ponteiros para essas ferramentas seriam úteis.

— kasperd

37

Suas opções são:

Restaurando de backups.
- Você faz ter cópias de segurança, não é? RAID não é um backup.
Recuperação profissional de dados
- É possível, apesar de muito caro e não garantido, que um serviço de recuperação profissional consiga recuperar seus dados.
Aceitando sua perda de dados e aprendendo com a experiência.
- Conforme observado nos comentários, discos SATA grandes não são recomendados para uma configuração RAID 5 devido à chance de uma falha dupla durante a reconstrução, causando falha na matriz.
  - Se for necessário RAID de paridade, o RAID 6 é melhor e, da próxima vez, use também um hot spare.
  - Os discos SAS são melhores por vários motivos, incluindo mais confiabilidade, resiliência e taxas mais baixas de erros de bits irrecuperáveis que podem causar UREs (erros de leitura irrecuperáveis)
- Como observado acima, o RAID não é um backup. Se os dados importarem, verifique se eles foram copiados e se seus backups foram testados para restauração.

— HopelessN00b
fonte

1

Se você possui 5 discos (conforme o OP) e está comprometido com um hot spare, certamente tomaria o RAID10 sobre o RAID6 ...?

— jimbobmcgee

1

Bem, para iniciantes - você usaria 4 eixos em um RAID 1 + 0 para obter 2 discos no espaço, deixando um disco 'sobressalente'. Você pode tolerar duas falhas (as duas certas, pelo menos). O RAID6 daria a você 3 discos com espaço e também toleraria duas falhas (duas). O RAID1 + 0 possui uma melhor capacidade de desempenho, com uma penalidade menor de gravação e potencialmente melhor desempenho de leitura aleatória (as leituras podem ser atendidas a partir de um dos dois eixos).

— Sobrique

Para o ponto 2. Recuperação de dados. A recuperação profissional de dados de um RAID5 pode custar US $ 20 mil com facilidade. Além disso, o OP permitiu que a reconstrução fosse executada da noite para o dia, estressando o disco, o que pode fazer com que a recuperação seja mais difícil ou até impossível. Apenas informando com antecedência. Certifique-se de enviar todos os discos.

— usar o seguinte

4

Falhas simultâneas são possíveis, e até mesmo prováveis, pelas razões que outros deram. A outra possibilidade é que um dos discos falhou algum tempo antes e você não estava verificando ativamente.

Verifique se o seu monitoramento captaria um volume RAID em execução no modo degradado imediatamente. Talvez você não tenha uma opção, mas nunca é bom ter que aprender essas coisas com o BIOS.

— richardb
fonte

3

+1 por mencionar o monitoramento negligenciado. É importante observar já a etapa "normal" -> "crítica", não a etapa "crítica" -> "com falha". O mesmo se aplica a todos os outros tipos de redundâncias (linha de backup da Internet, cerveja no porão, pneu sobressalente, ...).

— Hagen von Eitzen

2

Para responder "Como dois discos rígidos podem falhar simultaneamente assim?" precisamente, gostaria de citar este artigo :

O cerne do argumento é este. Como as unidades de disco se tornam cada vez maiores (aproximadamente o dobro em dois anos), o URE (erro de leitura irrecuperável) não melhorou na mesma taxa. O URE mede a frequência de ocorrência de um erro de leitura irrecuperável e normalmente é medido em erros por bits lidos. Por exemplo, uma taxa de URE de 1E-14 (10 ^ -14) implica que estatisticamente, um erro de leitura irrecuperável ocorreria uma vez a cada 1E14 bits lidos (1E14 bits = 1,25E13 bytes ou aproximadamente 12 TB).

...

O argumento é que, à medida que as capacidades do disco aumentam e a taxa de URE não melhora na mesma taxa, a possibilidade de uma falha de reconstrução do RAID5 aumenta com o tempo. Estatisticamente, ele mostra que em 2009, as capacidades de disco teriam crescido o suficiente para tornar sem sentido o uso de RAID5 para qualquer matriz significativa.

Portanto, o RAID5 não era seguro em 2009. O RAID6 será em breve também. Quanto ao RAID1, comecei a transformá-los em três discos. O RAID10 com 4 discos também é precário.

— Halfgaar
fonte

3

Novamente, o RAID não é uma alternativa de backup, é apenas uma questão de adicionar "uma zona de buffer" durante a qual um disco pode ser substituído para manter os dados disponíveis ... disponíveis. A outra opção é usar a replicação que exigiria que duas matrizes falhassem ao mesmo tempo ... muito menos provável que eu pensasse.

— War

Pessoalmente, não gosto do mantra de que o RAID não é um backup. O dicionário diz: "uma pessoa, plano, dispositivo etc., mantida em reserva para servir como substituto, se necessário". Se a quantidade de redundância não for suficiente, ela falhará em servir como um substituto. Se você não se importa com a redundância que o RAID fornece, é melhor não usá-lo. Quanto a não ser um substituto para backups externos e externos, isso é outra questão com a qual eu concordo (é claro).

— Halfgaar

então, o que você pensa sobre quem usa faixas RAID sem redundância? Nesse caso, a matriz RAID está sendo usada puramente para obter um benefício de desempenho que é perfeitamente válido para o uso da IMO. O RAID serve a dois propósitos: 1. fornecer velocidade agrupando os inversores ou 2. fornecer uma rede de segurança no caso de n unidades falham, garantindo que os dados ainda estejam disponíveis.

— War

Qualquer pessoa que implemente RAID escolheria o tipo de RAID que deseja usar com base em suas necessidades, velocidade, confiabilidade ou uma combinação dos 2, mas que ainda não torne o RAID qualquer forma de solução de backup.

— War

1

Quando as pessoas dizem que o RAID não é um backup, elas não estão falando sobre disponibilidade. Eu acho que você está apenas brincando com palavras. :)

— gparent

2

O segmento é antigo, mas se você estiver lendo, entenda quando uma unidade falhar em uma matriz de ataque, verifique a idade das unidades. Se você tiver vários discos em uma matriz de ataque e eles tiverem mais de 4-5 anos de idade, é bem provável que outra unidade falhe. *** Faça uma imagem ou backup ** antes de prosseguir. Se você acha que possui um backup, teste-o para ter certeza de que pode lê-lo e restaurá-lo.

A razão é que você está colocando anos de desgaste normal nas unidades restantes, pois elas giram a toda velocidade por horas e horas. Quanto maior o número de unidades de 6 anos, maior a chance de outra unidade falhar devido ao estresse. Se for RAID5, e você explodir a matriz, é ótimo ter um backup, mas um disco de 2 TB demorará de 8 a 36 horas para restaurar, dependendo do tipo de controlador de invasão e outro hardware.

Substituímos rotineiramente toda a seção de raides nos servidores de produção, se todas as unidades forem antigas. Por que perder tempo substituindo uma unidade, aguarde até a próxima falhar em um dia, semana, mês ou dois. Por mais barulhentos que sejam os discos, simplesmente não vale o tempo de inatividade.

— Rickkee Ranton
fonte

1

Normalmente, ao comprar muitas unidades de um revendedor respeitável, você pode solicitar que as unidades sejam de lotes diferentes, o que é importante pelos motivos mencionados acima. A seguir, é exatamente por isso que existe o RAID 1 + 0. Se você tivesse usado 6 unidades no RAID 1 + 0, teria 9 TB de dados com redundância imediata, onde não é necessária a reconstrução de um volume.

— Payton Byrd
fonte

Onde está a evidência que mostra que a parte sobre o uso de unidades de lotes diferentes é tudo menos um mito urbano? Além disso, o RAID 1 não protege magicamente contra a execução em setores ilegíveis durante a reconstrução. Se você deseja proteção contra isso, use o RAID 6 ou o RAID 1 com 3 espelhos (um pouco caro).

— kasperd

1

@ Kasperd Eu acho que a pergunta que forma a primeira parte do seu comentário é semelhante, embora obviamente não seja exatamente a mesma que: Devo "rodar" em um disco de um novo par RAID 1 para diminuir a chance de um tempo de falha semelhante? .

— a CVn

1

Se o seu controlador for reconhecido pelo dmraid (por exemplo aqui ) no linux, você poderá usar o ddrescue para recuperar o disco com falha para um novo e usar o dmraid para criar a matriz, em vez do controlador de hardware.

— Brian Minton
fonte