Eu tenho uma triste matriz RAID em uma placa 3ware 9650SE-16ML. O que não sei dizer é se sofri uma falha no disco duplo (chatice!) Ou se estou lendo isso errado. A saída relevante de /c0 show all
é:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
E a falha é (de show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Eu acho que o que aconteceu foi p0 falhou e, em seguida, p1 teve um erro de ECC (ou seja, meus dados sumiram). Mas ... talvez não? Ele permanece em 97% reconstruído, mas não pode passar por esse erro.
Até onde eu sei, um administrador anterior desativou a verificação periódica, e foi isso que nos levou a esse estado. Isso não é algo com o qual a maioria das pessoas deve se preocupar com seus RAIDs 3Ware!
Atualizar
Depois de bater nele por alguns dias, fiz o bit IgnoreECC e ele foi reconstruído, mas meus dados são processados. Vadio.