O que tw_cli do 3Ware significa por um disco "DEGRADED" vs "ECC-ERROR"?

Eu tenho uma triste matriz RAID em uma placa 3ware 9650SE-16ML. O que não sei dizer é se sofri uma falha no disco duplo (chatice!) Ou se estou lendo isso errado. A saída relevante de /c0 show allé:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ

E a falha é (de show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Eu acho que o que aconteceu foi p0 falhou e, em seguida, p1 teve um erro de ECC (ou seja, meus dados sumiram). Mas ... talvez não? Ele permanece em 97% reconstruído, mas não pode passar por esse erro.

Até onde eu sei, um administrador anterior desativou a verificação periódica, e foi isso que nos levou a esse estado. Isso não é algo com o qual a maioria das pessoas deve se preocupar com seus RAIDs 3Ware!

Atualizar

Depois de bater nele por alguns dias, fiz o bit IgnoreECC e ele foi reconstruído, mas meus dados são processados. Vadio.

linux raid 3ware

— Bill Weiss
fonte

Experimente o método de recuperação do congelador , se houver algum dado importante.

— Chris S

Eu não sou contra o truque do freezer, mas não é para um modo de falha específico, não apenas "minha unidade morreu"?

— Bill Weiss

O disco rotulado como DEGRADED é o disco de destino da operação REBUILD.

— wazoox

Respostas:

Erro de ECC significa que há pelo menos um setor ilegível na unidade. No entanto, se você tiver sorte, esse setor pode não ser realmente usado pelo sistema de arquivos localizado nesse volume; portanto, você ainda poderá copiar seus dados da matriz nesse estado.

Existem também algumas opções para ignorar erros de ECC durante a reconstrução:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

No entanto, o uso dessas opções significa que a faixa RAID afetada por um setor defeituoso será corrompida (não tem certeza do que exatamente o cartão fará nesse caso - ela pode substituir a faixa inteira por zeros ou mesmo dados aleatórios); portanto, o " recuperado ”pode realmente ter corrupção indetectável (se a faixa afetada estiver no meio de algum arquivo de dados). Copiar seus dados da matriz para outro local antes de tentar reconstruir pode ser mais seguro (pelo menos você deve obter erros ao tentar ler a área incorreta).

Você deve configurar a verificação programada da matriz para capturar setores ilegíveis anteriormente, para poder substituir uma unidade que começou a ficar ruim.

— Sergey Vlasov
fonte

Estou fazendo o bit ignoreECC agora. Não está ótimo para meus dados.

— Bill Weiss

E sim, devemos deixar as matrizes verificarem de tempos em tempos. Eu vou especular que o cara que configurar isso virou isso fora por motivos de desempenho :(

— Bill Weiss

Bem, isso conseguiu reconstruir, mas foi indicado nos meus dados. Vadio. Isso vai nos ensinar a desligar verificar ...

— Bill Weiss

Nunca experimentei uma unidade física (p0) para entrar no status DEGRADED; no entanto, você poderá recuperar a unidade ECC-ERROR ou até a unidade DEGRADED removendo-as por meio de

/c0 p1 remove

e, em seguida, emitindo uma nova varredura

/c0 rescan

colocá-los de volta na unidade de ataque via

maint rebuild c0 u0 p1

Unidades SATA que falharam com o ECC-ERROR, consegui ressuscitar, mesmo que apenas por algumas horas, antes de falhar novamente.

— ZaphodB
fonte

A remoção da unidade p1 no estado atual provavelmente mangueira a matriz completamente.

— Sergey Vlasov

Fiz isso com a unidade p0 (supondo que ela era ruim) e está tentando reconstruir, mas marcou a unidade como Degradada quase imediatamente. Vadio.

— Bill Weiss

AFAIR, a unidade é mantida marcada como DEGRADADA durante a reconstrução - veja, por exemplo, aqui . O que é importante é o status da matriz (REBUILDING ou outra coisa?).

— Sergey Vlasov

Hum. Na verdade, está reconstruindo ... Todas as quatro unidades estão piscando bastante, é um bom sinal, certo?

— Bill Weiss

Stiiiiiil reconstruindo ... está em 37% após 4 horas. Vadio.

— Bill Weiss

É muito provável que seus dados se foram. Erro ECC significa um erro irrecuperável durante a leitura deste disco.

Se você não tiver um backup, tente despejar o estado atual da matriz. Isso pode ser possível porque o controlador não sabe se perdeu dados ou apenas uma área vazia (não possui informações sobre o sistema de arquivos).

— Sven
fonte