Digamos que eu execute uma computação de supercomputador em 100k núcleos por 4 horas em http://www.nersc.gov/users/computational-systems/edison/configuration , trocando cerca de 4 PB de dados pela rede e executando cerca de 4 TB de I / O. O cálculo é todo inteiro, portanto, os resultados estão certos ou errados (sem erros numéricos intermediários).
Supondo que o código esteja correto, gostaria de estimar a probabilidade de que o cálculo esteja errado devido a uma falha de hardware. Qual é uma boa maneira de fazer isso? Existem boas fontes para os números necessários para fazer essa estimativa?