“Erro Northbridge (nó 0): Erro ECC no diretório Filtro de Sonda”

Recebi um e-mail de um usuário preocupado que os seguintes erros em um de seus servidores sejam indicativos de um problema sério. O problema é que os erros abaixo são tudo o que tenho para continuar. Normalmente, eu me considero um decente Googler, mas neste caso só posso encontrar um outro incidente em que os usuários encontraram este erro sobre "diretório Sonda do Filtro":

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

Pelo que sei, isso só aconteceu uma vez. Contornar os logs em busca de outros erros de hardware não gera nada além desse incidente.

A postagem no fórum que refiro acima simplesmente termina basicamente dizendo ao usuário para não se preocupar com isso, se isso aconteceu apenas uma vez e não causou problemas fatais. Este é o mesmo conselho que recebi dos meus colegas, que também mencionaram que há muitas variáveis (ou seja, o que estava sendo executado às 2h50 de 8 de setembro?).

No entanto, esse usuário deseja ter certeza de que algo não está errado com seu sistema. Com o que os erros acima podem indicar ou estar relacionados? O que é o diretório "Probe Filter"? Quais testes posso executar para deixar o usuário à vontade de que isso não sinalize sua máquina por uma desgraça iminente?

A distribuição Linux da máquina é o Red Hat Enterprise Linux Server versão 6.4 (Santiago).

linux-kernel hardware ecc

— CptSupermrkt
fonte

Isso explica o que é: developer.amd.com/community/blog/ht-assist-what-is-it

— derobert

Whoa, você está certo! Cliquei com a tecla Ctrl pressionada na página e encontrei "HT Assist, ou o Filtro de Sonda, como é chamado às vezes". Finalmente, algum tipo de referência ao erro / ponto de partida! Tenho muita leitura a fazer :)

— CptSupermrkt

@derobert isso soa como uma resposta, não?

— Braiam

@Braiam esse link explica apenas o que é "filtro de sonda" ... não explica por que o OP obteria um erro de ECC lá ou se indica um problema real.

— 10264 derobert

Não tenho uma resposta precisa, mas parte disso é familiar. Não sei o que é um diretório do Probe Filter, mas o CptSupermrkt explicou isso acima.

No PCI, um Northbridge se conecta à memória e ao processador. Erros de ECC estão associados à DRAM. Há bits de código de correção de erros armazenados junto com cada palavra. Nas leituras, eles são verificados nas gravações e são atualizados. Os erros de ECC são corrigíveis ou não, o que indica a capacidade de corrigir um erro usando os bits gravados. Incorrigível não indica que há um erro permanente de hardware. Isso pode acontecer quando a DRAM começa a falhar.

Dado tudo isso, isso parece um erro transitório. Você pode tentar um teste de memória completo, mas provavelmente não encontrará nada. Se a DRAM falhou, sua única ação corretiva é substituí-la.

— MikeLRoy
fonte