Estou em um ambiente que contém muitos servidores Supermicro equipados com controladores RAID de hardware Adaptec e LSI MegaRAID . Esses controladores contêm módulos de cache com bateria para ajudar a aumentar o desempenho de gravação e proteger os dados em trânsito.
Um suporte freqüente é a falha da bateria do controlador RAID. Isso muda a matriz do modo write-back para write-through . Há claramente um impacto negativo no desempenho, pois o sistema funciona com velocidade de gravação reduzida. Isso persiste até que uma janela de tempo de inatividade possa ser estabelecida para desligar o sistema e substituir a bateria.
Esta é uma operação muito rotineira para nós; quase semanalmente em vários milhares de servidores físicos ... Temos até estações de carregamento para preparar baterias de reposição para que possam ser trocadas sem um ciclo de carga.
Talvez eu esteja estragado por uma longa história com servidores HP ProLiant e controladores Smart Array RAID , mas os sistemas HP normalmente têm uma duração de bateria de 4-6 anos. Eles acabaram por eliminar o uso de baterias RAID por volta de 2009. Eles foram substituídos por módulos de memória com supercapacitor (cache de gravação com flash ou FBWC) e não requerem substituição, descarte ou um longo ciclo de carregamento inicial.
Como vejo as falhas da bateria dos controladores Adaptec e LSI às vezes ocorrendo em sistemas que estão em serviço há menos de 12 meses, pergunto-me se isso é comum em outros ambientes.
Se isso for comum, como outros ambientes de servidor grandes lidam com isso?
- Algumas dicas ou truques para lidar com substituições de baterias RAID?
- Existem parâmetros de configuração que podem ajudar?
- Quão perturbador é isso para as operações em seu ambiente?
- Poderia um arrefecimento e temperatura fracos do chassi ser um fator?
- Estamos fazendo algo errado?
- Os controladores Dell PERC são fabricados pela LSI. Os ambientes Dell experimentam a mesma duração de bateria curta?
Documentação do produto LSI que descreve uma bateria de nova geração que pode durar mais tempo em serviço que 1 ano.
Servidor HP ProLiant DL585 G2 com mais de 1000 dias de atividade e uma feliz bateria RAID ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK