Hoje atingimos algum tipo de pior cenário e estamos abertos a qualquer tipo de boas idéias.
Aqui está o nosso problema:
Estamos usando vários servidores de armazenamento dedicados para hospedar nossas máquinas virtuais. Antes de continuar, aqui estão as especificações:
- Máquina Servidor Dedicada
- Controlador RAID 1280ml Areca, firmware 1.49
- HDDs 12x de 1TB Samsung
Configuramos um conjunto RAID6 com 10 discos que contém um volume lógico. Temos duas peças quentes no sistema.
Hoje um HDD falhou. Isso acontece de tempos em tempos, então substituímos. Ao reconstruir um segundo disco falhou. Normalmente isso não é divertido. Interrompemos operações de E / S pesadas para garantir uma reconstrução estável do RAID.
Infelizmente, o disco hot-spare falhou durante a reconstrução e a coisa toda parou.
Agora temos a seguinte situação:
- O controlador diz que o conjunto de invasões está sendo reconstruído
- O controlador diz que o volume falhou
É um sistema RAID 6 e dois discos falharam, portanto os dados precisam estar intactos, mas não podemos colocar o volume online novamente para acessar os dados.
Durante a pesquisa, encontramos os seguintes leads. Não sei se são boas ou más:
Espelhando todos os discos para um segundo conjunto de unidades. Portanto, teríamos a possibilidade de tentar coisas diferentes sem perder mais do que já temos.
Tentando reconstruir a matriz no R-Studio. Mas não temos experiência real com o software.
Puxando todas as unidades, reinicializando o sistema, mudando para o BIOS do controlador areca, reinserindo os HDs um por um. Algumas pessoas estão dizendo que isso trouxe o sistema online por isso. Alguns estão dizendo que o efeito é zero. Alguns dizem que estragaram tudo.
Usando comandos areca não documentados como "rescue" ou "LeVel2ReScUe".
Entrando em contato com um serviço forense de computadores. Mas whoa ... as estimativas primárias por telefone excederam 20.000 €. Por isso, pedimos ajuda. Talvez estejamos perdendo o óbvio?
E sim, claro, temos backups. Mas alguns sistemas perderam uma semana de dados, é por isso que gostaríamos de colocar o sistema em funcionamento novamente.
Qualquer ajuda, sugestões e perguntas são bem-vindas.
dd
espelho de todos os discos, apenas para evitar mais danos e ter um plano de fallback ao trabalhar em uma solução real.