Nota: esta resposta não é sobre física, mas sobre erros de memória silenciosa com módulos de memória não-ECC. Alguns erros podem vir do espaço sideral e outros - do espaço interno da área de trabalho.
Existem vários estudos sobre falhas de memória ECC em grandes farms de servidores, como clusters CERN e datacenters do Google. O hardware da classe de servidor com ECC pode detectar e corrigir todos os erros de um único bit e detectar muitos erros de vários bits.
Podemos supor que haja muitos desktops não ECC (e smartphones móveis não ECC). Se verificarmos os papéis quanto a taxas de erro corrigíveis por ECC (simples bitflips), podemos saber a taxa de corrupção de memória silenciosa na memória não-ECC.
Portanto, se o programa tiver um grande conjunto de dados (vários GB) ou uma alta taxa de leitura ou gravação na memória (GB / s ou mais), e ele for executado por várias horas, podemos esperar até vários movimentos de bits silenciosos no hardware da área de trabalho. Essa taxa não é detectável pelo memtest e os módulos DRAM são bons.
Clusters longos são executados em milhares de PCs não-ECC, como o BOINC, a computação em grade na Internet sempre terá erros nos bits de memória e também nos erros silenciosos de disco e de rede.
E para máquinas maiores (10 milhares de servidores), mesmo com proteção ECC contra erros de bit único, como podemos ver no relatório de Sandia de 2012, pode haver inversões de bit duplo todos os dias, para que você não tenha chance de executar paralelo em tamanho real programa por vários dias (sem ponto de verificação regular e reinicialização do último ponto de verificação bom em caso de erro duplo). As grandes máquinas também receberão inversões de bits em seus caches e registros de CPU (ambos os gatilhos arquitetônicos e internos, como no caminho de dados da ALU), porque nem todos são protegidos pelo ECC.
PS: As coisas ficarão muito piores se o módulo DRAM estiver ruim. Por exemplo, instalei uma nova DRAM no laptop, que morreu várias semanas depois. Começou a dar muitos erros de memória. O que recebo: o laptop trava, o linux é reinicializado, executa o fsck, encontra erros no sistema de arquivos raiz e diz que deseja reinicializar após corrigir os erros. Mas a cada reinicialização seguinte (fiz cerca de 5-6), ainda existem erros encontrados no sistema de arquivos raiz.