Eu tenho um servidor HP ProLiant DL380 G7 sendo executado como uma unidade de armazenamento NexentaStor . O servidor possui 36 GB de RAM, 2 controladores LSI 9211-8i SAS (sem expansores SAS), 2 unidades de sistema SAS, 12 unidades de dados SAS, um disco hot-spare, um cache Intel X25-M L2ARC e um acelerador DDRdrive PCI ZIL. Este sistema atende o NFS a vários hosts VMWare. Eu também tenho cerca de 90 a 100 GB de dados desduplicados na matriz.
Eu tive dois incidentes em que o desempenho diminuiu repentinamente, deixando os convidados da VM e os consoles Nexenta SSH / Web inacessíveis e exigindo uma reinicialização completa da matriz para restaurar a funcionalidade. Nos dois casos, foi o SSD Intel X-25M L2ARC que falhou ou foi "off-line". O NexentaStor falhou ao me alertar sobre a falha no cache, no entanto, o alerta geral do ZFS FMA estava visível na tela do console (sem resposta).
A zpool status
saída mostrou:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
Isso não acionou nenhum alerta da Nexenta.
Fiquei com a impressão de que uma falha do L2ARC não afetaria o sistema. Mas, neste caso, certamente era o culpado. Eu nunca vi nenhuma recomendação para o RAID L2ARC. Remover completamente o SSD com defeito do servidor me fez voltar a funcionar, mas estou preocupado com o impacto da falha do dispositivo (e talvez também com a falta de notificação do NexentaStor).
Editar - Qual é o SSD de melhor escolha atual para aplicativos de cache L2ARC atualmente?