Recebi um e-mail de um usuário preocupado que os seguintes erros em um de seus servidores sejam indicativos de um problema sério. O problema é que os erros abaixo são tudo o que tenho para continuar. Normalmente, eu me considero um decente Googler, mas neste caso só posso encontrar um outro incidente em que os usuários encontraram este erro sobre "diretório Sonda do Filtro":
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
Pelo que sei, isso só aconteceu uma vez. Contornar os logs em busca de outros erros de hardware não gera nada além desse incidente.
A postagem no fórum que refiro acima simplesmente termina basicamente dizendo ao usuário para não se preocupar com isso, se isso aconteceu apenas uma vez e não causou problemas fatais. Este é o mesmo conselho que recebi dos meus colegas, que também mencionaram que há muitas variáveis (ou seja, o que estava sendo executado às 2h50 de 8 de setembro?).
No entanto, esse usuário deseja ter certeza de que algo não está errado com seu sistema. Com o que os erros acima podem indicar ou estar relacionados? O que é o diretório "Probe Filter"? Quais testes posso executar para deixar o usuário à vontade de que isso não sinalize sua máquina por uma desgraça iminente?
A distribuição Linux da máquina é o Red Hat Enterprise Linux Server versão 6.4 (Santiago).