Isso depende do hardware do servidor. Uma caixa branca ou um sistema Supermicro lidará com isso de maneira diferente da Dell, HP ou IBM ...
Um dos recursos de valor agregado dos servidores de ponta é que há um nível de integração de hardware / sistema operacional. Os servidores mais agradáveis reportarão o que você procura como parte dos agentes de gerenciamento e / ou da solução de gerenciamento fora de banda (ILO, DRAC, IPMI).
Você deve usar as ferramentas nativas da sua plataforma de hardware.
Trecho de um servidor HP ProLiant executando o Linux e os agentes de gerenciamento HP:
Trap-ID=6056
ECC Memory Correctable Errors detected.
e
Trap-ID=6052
Advanced ECC Memory Engaged
ou um mais grave
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
ou o pior ... Ignorando um erro por 6 dias até o servidor travar devido à falta de RAM
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Eles foram registrados, além de traps SNMP e e-mails enviados.
Genericamente, você verá Exceções de verificação de máquina no buffer de anel do kernel, para poder verificar dmesg
ou executar o mcelog . Nas minhas experiências com o equipamento Supermicro sem IPMI, isso não pegou tudo, e eu ainda tinha erros de RAM que escapavam pelas rachaduras e causavam interrupções. Infelizmente, isso levou a políticas arcaicas de queima de RAM antes das implantações do sistema.