Estatísticas sobre mau funcionamento da RAM

8

Alguém sabe sobre estatísticas ou estudos sobre a frequência com que os computadores têm RAM com defeito?

Atualização: Meu computador está bem! Não tenho problemas de RAM, estou interessado nas estatísticas. Eu recebo relatórios de erros do meu software cuja causa pode estar com defeito no RAM do computador do usuário e gostaria de saber qual é a probabilidade disso.

Obrigado!

Carl

memory

— Carl Seleborg
fonte

Você pode dar algumas informações específicas sobre o problema que você está culpando pela falha de memória RAM?

— Dave Cheney

Um pouco. Computamos somas de verificação a partir de arquivos e de partes desses arquivos no disco rígido e depois que eles são carregados na RAM. Percebemos alguns resultados muito estranhos em alguns dos sistemas dos usuários, que poderiam ser explicados por bugs ou memória defeituosa.

— 22630 Carl Seleborg

6

Em uma população de máquinas da classe 36 do servidor, vejo uma falha corrigível detectada pelos circuitos do ECC uma vez a cada 3 meses.

Se você suspeitar de falha na memória, deve executar memtest86, que vem incluído em quase todas as distribuições populares de linux atualmente.

— Dave Cheney
fonte

Como você monitora isso?

— Antoine Benkemoun 18/06/09

A maioria dos sistemas LOM o acompanha em seus logs.

— Chris S

3

Das taxas de erro DRAM de Robin Harris : Pesadelo na rua DIMM :

Um estudo de dois anos e meio de DRAM em 10s de milhares de servidores do Google constatou que as taxas de erro de DIMM são centenas a milhares de vezes mais altas do que se pensava - uma média de 3.751 erros corrigíveis por DIMM por ano.

Harris cita um estudo realizado ao longo de 2,5 anos na frota de servidores do Google . Observe que os servidores geralmente usam a RAM do EEC, que executa alguma correção de erro. Os computadores no nível do consumidor geralmente não têm isso.

Berke Durak, da Lambda Diode, calcula :

Primeiro, vamos supor que você tenha um sistema sem correção de erros nem paridade. A probabilidade de ocorrer um pequeno erro durante o tempo T será 1- (1-p) ^ m.

Para T = 1 hora, p = 1,3e-12 e m = 4 * 2 ^ 30 * 8 que fornece 0,044 ou 4,4%. Essa é uma probabilidade bastante alta. De fato, em um dia, isso leva a uma probabilidade de 66% e em 72 horas a uma probabilidade de 96%.

Portanto, a probabilidade de ter pelo menos um erro de bit em 4 gigabytes de memória ao nível do mar no planeta Terra em 72 horas é superior a 95%.

Não vou rir da próxima vez que um colega disser "raio cósmico" quando não conseguirmos identificar a causa de um acidente ...

— Carl Seleborg
fonte

2

"20% das máquinas com erros representam mais de 90% de todos os erros observados", "o estudo constatou que as taxas de erro dependem da placa-mãe". Acho que vou ficar com a sabedoria convencional por enquanto. O estudo cheira a "mentira, maldita mentira e estatística". (apenas meus 2 centavos)

— Chris S

2

Você pode inicializar o computador com o memtest86 + e executar uma verificação durante a noite. É assim que eu encontro problemas.

Sim, eu vi pedaços de memória ficarem ruins onde eles apenas falhariam com um padrão específico de gravação de memória. O BIOS do computador não detectou o problema, mas o memtest86 o encontrou durante a noite.

Eu vi duas barras de RAM com defeito em cerca de cinquenta computadores que usei nos últimos dez anos. Isso acontece, mas não com frequência.

— shapr
fonte

Outro voto para memtest86 +. Ele percorre sua memória pouco a pouco, procurando erros.

— Dave Drager

Obrigado pessoal, mas eu realmente preciso de estatísticas: o problema não ocorre no meu computador, mas no computador do usuário (e temos mais de 200000 usuários).

— 22330 Carl Seleborg

2

Você pode dar uma olhada neste estudo do Google :

Em média, cerca de um em cada três servidores do Google experimentava um erro de memória corrigível a cada ano e um em cem um erro incorrigível

Mas eles estão falando sobre a RAM do ECC, e não sobre a RAM do usuário todos os dias

— Nicolas Charles
fonte

2

Vi vários módulos de memória falharem totalmente em servidores operacionais na última década e um número um pouco maior de falhas ao gravar o Memtest86 em testes em hardware recém-entregue. Estes são sistemas de servidor, quase todos com memória ECC de um tipo ou de outro, portanto, esperaria problemas muito mais frequentes em sistemas clientes com RAM sem correção de erros. No entanto, não tenho um grande conjunto de amostras para trabalhar, temos algumas dezenas de servidores próprios e, em termos de comissionamento de sistemas de clientes, eu diria que já trabalhei em cerca de cem em um nível em que eu ' eu realmente estaria prestando atenção na RAM.

No lado do cliente, tenho um pouco mais de experiência em escala corporativa - fui engenheiro sênior de um grupo que gerenciava PCs com 50k de usuários finais há alguns anos e nunca vimos falhas de disco rígido ou RAM como um problema significativo, certamente não era. algo que afetou qualquer porcentagem mensurável de sistemas. Isso não quer dizer que não aconteceu, apenas que eu ficaria muito surpreso se fosse um problema que afetasse mais de 1% dos desktops e notebooks de classe empresarial. Alguns modelos específicos demonstrariam taxas de falha realmente altas relacionadas ao controle de qualidade, o primeiro lote do IBM Thinkpad T30 teve um problema com seu segundo slot DIMM, o que nos levou a reparar e substituir alguns milhares de máquinas em determinado momento.

Esta publicação no blog de Larry Osterman, da Microsoft, de 2005, pode dar uma explicação possível para alguns deles - sua análise de alguns erros estranhos relatados no conjunto de dados bastante grande que vem do Relatório de Erros do Windows indica que muitos desses problemas estranhos são causados por relógio. Se é provável que um número significativo de usuários finais esteja usando o kit de nível de consumidor com overclock, isso pode estar relacionado aos seus erros.

— Helvick
fonte

0

Você tem a opção de usar 'memória espelhada' em seu sistema - isso informaria se você tem problemas de memória ou não - com isso, há MUITO menos chance de que algum erro seja devido a problemas de memória física.

— Chopper3
fonte

Obrigado Chopper3, mas novamente: a pergunta era sobre estatística. Meu próprio computador é muito bem e eu não posso pedir 200000+ usuários para usar a memória espelhada :-)

— Carl Seleborg

Bom ponto, bem feito - no entanto, não estava ciente do escopo.

— Chopper3

-1

Se você estiver executando o Linux:

Se você não deseja reiniciar o memtest86 +, poderá obter alguns resultados executando o memtester para testar a memória para descobrir se está com defeito ou não. Realiza um trabalho realisticamente bom para encontrar as falhas irregulares, assim como as falhas não determinísticas. Ele possui vários testes para detectar o limite da memória e produz um relatório detalhado das falhas localizadas, os testes executados e o tempo necessário para encontrar as falhas no computador. Não é necessário reiniciar, você pode executá-lo em um sistema Linux em execução.

Não encontrei nenhum link para o aplicativo, mas aqui estão as informações do pacote debian :

— rkthkr
fonte

Sinto muito, mas minha pergunta não era sobre o meu próprio sistema. Por favor, leia com mais atenção.

— Carl Seleborg