Sobrique explica como a intervenção manual faz com que sua solução proposta seja ótima e o ewwhite fala sobre a probabilidade de falha de vários componentes . Os dois membros da OMI fazem pontos muito bons e devem ser fortemente considerados.
No entanto, há um problema que ninguém parece ter comentado até agora, o que me surpreende um pouco. Você propõe:
torne [o atual hot spare atual] um cold poupe, pegue os discos rígidos e coloque-os no host principal e altere o RAID de 1 para 1 + 1.
Isso não protege você contra nada que o sistema operacional faça no disco.
Ele realmente apenas protege você contra falhas no disco, que, ao passar de espelhos (RAID 1) para espelhos de espelhos (RAID 1 + 1), reduz bastante o impacto de início. Você pode obter o mesmo resultado aumentando o número de discos em cada conjunto de espelhos (vá de RAID 1 de 2 discos para RAID 1 de 4 discos, por exemplo), além de provavelmente melhorar o desempenho de leitura durante operações comuns.
Bem, então, vamos ver algumas maneiras pelas quais isso pode falhar .
- Digamos que você esteja instalando atualizações do sistema, e algo causa uma falha no processo até a metade; talvez haja uma falha no fornecimento de energia e no no-break , ou talvez você tenha um acidente estranho e tenha atingido um bug no kernel (o Linux é bastante confiável hoje em dia, mas ainda existe o risco).
- Talvez uma atualização introduza um problema que você não detectou durante o teste (você faz as atualizações do sistema, certo?), Exigindo um failover para o sistema secundário enquanto você corrige o primário
- Talvez um bug no código do sistema de arquivos cause gravações falsas e inválidas no disco.
- Talvez um administrador gordo (ou até mal-intencionado) faça
rm -rf ../*
ou rm -rf /*
não rm -rf ./*
.
- Talvez um bug no seu próprio software faça com que ele danifique massivamente o conteúdo do banco de dados.
- Talvez um vírus consiga se infiltrar.
Talvez, talvez, talvez ... (e tenho certeza de que há muitas outras maneiras pelas quais sua abordagem proposta pode falhar.) No entanto, no final, tudo se resume à sua "vantagem" dos "dois conjuntos estão sempre sincronizados". Às vezes você não quer que eles estejam perfeitamente sincronizados.
Dependendo do que exatamente aconteceu, é quando você deseja um modo de espera quente ou frio pronto para ser ligado e alternado ou backups adequados. De qualquer forma, os espelhos RAID dos espelhos (ou espelhos RAID) não ajudam se o modo de falha envolve muito mais do que a falha do dispositivo de armazenamento de hardware (falha no disco). Algo como o raidzN do ZFS provavelmente pode se sair um pouco melhor em alguns aspectos, mas nem um pouco melhor em outros.
Para mim, isso faria com que sua abordagem proposta não fosse possível desde o início, se a intenção for algum tipo de failover de desastre.