Falha no conjunto de volumes Areca 1280ml RAID6

Hoje atingimos algum tipo de pior cenário e estamos abertos a qualquer tipo de boas idéias.

Aqui está o nosso problema:

Estamos usando vários servidores de armazenamento dedicados para hospedar nossas máquinas virtuais. Antes de continuar, aqui estão as especificações:

Máquina Servidor Dedicada
Controlador RAID 1280ml Areca, firmware 1.49
HDDs 12x de 1TB Samsung

Configuramos um conjunto RAID6 com 10 discos que contém um volume lógico. Temos duas peças quentes no sistema.

Hoje um HDD falhou. Isso acontece de tempos em tempos, então substituímos. Ao reconstruir um segundo disco falhou. Normalmente isso não é divertido. Interrompemos operações de E / S pesadas para garantir uma reconstrução estável do RAID.

Infelizmente, o disco hot-spare falhou durante a reconstrução e a coisa toda parou.

Agora temos a seguinte situação:

O controlador diz que o conjunto de invasões está sendo reconstruído
O controlador diz que o volume falhou

É um sistema RAID 6 e dois discos falharam, portanto os dados precisam estar intactos, mas não podemos colocar o volume online novamente para acessar os dados.

Durante a pesquisa, encontramos os seguintes leads. Não sei se são boas ou más:

Espelhando todos os discos para um segundo conjunto de unidades. Portanto, teríamos a possibilidade de tentar coisas diferentes sem perder mais do que já temos.
Tentando reconstruir a matriz no R-Studio. Mas não temos experiência real com o software.
Puxando todas as unidades, reinicializando o sistema, mudando para o BIOS do controlador areca, reinserindo os HDs um por um. Algumas pessoas estão dizendo que isso trouxe o sistema online por isso. Alguns estão dizendo que o efeito é zero. Alguns dizem que estragaram tudo.
Usando comandos areca não documentados como "rescue" ou "LeVel2ReScUe".
Entrando em contato com um serviço forense de computadores. Mas whoa ... as estimativas primárias por telefone excederam 20.000 €. Por isso, pedimos ajuda. Talvez estejamos perdendo o óbvio?

E sim, claro, temos backups. Mas alguns sistemas perderam uma semana de dados, é por isso que gostaríamos de colocar o sistema em funcionamento novamente.

Qualquer ajuda, sugestões e perguntas são bem-vindas.

— Richard
fonte

Eu argumentaria que o que você faz, seu primeiro passo deve ser um ddespelho de todos os discos, apenas para evitar mais danos e ter um plano de fallback ao trabalhar em uma solução real.

— Sven

Vamos fazer isso ...

— Richard

E os hotspares?

— Cawflands

Você pode entrar em contato com o fornecedor para obter suporte? Supondo que você não possa (e você usou o dd para espelhar tudo, de acordo com a excelente sugestão do @ SvenW), por que não substituir as unidades com falha, reiniciar e ver o que acontece? Eu não necessariamente puxaria todas as unidades, apenas as que falharam. Mas, na verdade, sua primeira aposta é o fornecedor, eles entendem o software deles.

— Jeremy

Você descobriu uma solução? Se assim for, deixe-nos saber o que era para referência futura, por favor!

— Grant

Respostas:

Eu acho que a opção 1. é o seu melhor.

Pegue 12x novos HDDs, 1x novo controlador RAID Tente espelhar (dd se = de =) discos antigos para os novos 1: 1 usando qualquer caixa Linux. Construa um novo servidor usando o 1x novo controlador RAID e os 12x novos HDDs

Tente reconstruir a matriz no novo servidor. Sucesso? Ótimo. Pare.
Falha na reconstrução? Espelhe os discos antigos para os novos novamente, tente a Opção i + 1

— cipy
fonte

Infelizmente, este é um cenário muito comum. Houve um bom estudo do Google sobre isso anos atrás, e acontece que a perda de dados com RAID pode ocorrer durante a reconstrução da matriz. Isso pode afetar diferentes sistemas RAID com diferentes gravidades. Aqui está o cenário RAID6:

sua matriz possui 3 dados e 2 discos de paridade.
se você perder um disco, é certo que todos os dados são recuperáveis.
se você perder 2 discos, você perderá dados

Por que é que?

Pense no seguinte: vamos ter alguns dados, suponha que os 3 primeiros blocos de um arquivo tenham os seguintes blocos de dados: A1 + A2 + A3 e a seguinte paridade: Ap + Ap sentado no hdd1 ... hdd5

Se você perder dois discos entre 1 e 3, perderá dados porque os dados não são recuperáveis, você tem 2 paridades e 1 bloco de dados.

Agora, o mesmo cenário com 10 discos pode ser diferente, mas acho que foi tratado da mesma maneira que você divide os dados em 8 blocos e salva a paridade em 2 outras unidades e possui 2 hot-spares. Você conhece os detalhes da configuração do seu controlador RAID?

Eu começaria a me recuperar do backup externo (acho que você tem alguns), e o serviço voltou a tentar recuperar o máximo de dados possível, usando o Unix e dd as unidades em imagens e usando-o como dispositivo de loop, por exemplo.

http://wiki.edseek.com/guide:mount_loopback

Você precisa saber que tipo de metadados o controlador RAID usa e se tiver sorte, ele é suportado em alguma ferramenta como dmraid.

Mas isso não significa que você possa recuperar dados, uma vez que os arquivos são distribuídos entre muitos e muitos blocos normalmente, é provável que a recuperação não traga nenhum dos seus dados.

Mais sobre RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

— Istvan
fonte