Quão seriamente devo levar em consideração os avisos de erro corrigíveis do ECC?

Eu tenho uma pilha de servidores Sun X2200-M2. Esses servidores possuem memória ECC.

Em alguns desses servidores, estou recebendo avisos no eLOM sobre "erros corrigíveis de ECC detectados", por exemplo:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... alguns com mais frequência do que outros.

O kernel nesse sistema em particular também está lançando erros EDAC, embora com muito mais frequência do que o eLOM esteja registrando eventos ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Agora, se o servidor estiver detectando ECC incorrigível, o sistema será redefinido, o que é muito ruim e a remoção / substituição do par ou manche identificado corrige o problema.

Mas estou pensando que, se o erro for corrigível, não haverá problema imediato - posso tratar isso como um aviso e estar preparado para puxar o stick / par se um erro incorrigível começar a ocorrer?

ecc

— David Mackintosh
fonte

Depende da frequência com que você recebe o erro. Por várias razões, o ECC deve corrigir erros de bit único cerca de uma vez por ano, em média. Se você os está obtendo significativamente mais rápido que isso, ou se são erros de vários bits, você deve se preocupar (eu substituiria a RAM o mais rápido possível).

Além disso, o ECC não é perfeito. É possível que o erro cumulativo seja aprovado no ECC; que apareceria como uma falha do sistema operacional ou problema semelhante.

— Chris S
fonte

Obrigado. Negociação com o cliente para financiar substituições.

— David Mackintosh