O que é um servidor não crítico? Um que pode falhar?
A RAM do ECC é fundamental quando a confiabilidade da memória é fundamental.
Duas coisas crescem com o aumento do tamanho da memória:
- a dependência do software na memória, esp. software de servidor (por exemplo, armazenamento em cache)
- a probabilidade de erro de memória (p = num_bits * p_bit_failure)
Esta apresentação da intel no ECC relata os seguintes fatos:
- A taxa média de erro de memória para um servidor com 4 GB de memória executando 24x7 é 150 vezes por ano
- ~ 4000 erros corrigíveis por módulo de memória por ano
- O overclock e a idade do sistema aumentam bastante as taxas de falha
- Falhas recorrentes são comuns e ocorrem rapidamente (97% ocorrem 10 dias após a primeira falha) => efeito avalanche
- Para um servidor ECC com vida útil de 3 a 5 anos, a chance de erro incorreto de memória na falha do sistema é menor que 0,001%
Outra pesquisa recente do WISC mostra que o ECC é essencial para esses sistemas ZFS:
O ZFS não tem precauções para corrupção de memória: blocos de dados incorretos são retornados ao usuário ou gravados em disco, as operações do sistema de arquivos falham e muitas vezes o sistema inteiro trava.
É importante observar que outros sistemas de arquivos são tão sensíveis a essa forma de corrupção de dados quanto o ZFS.
O ECC é o que evita que você se depare com esses problemas, quando possível e, em casos desastrosos, o que avisa sobre isso antes que seja tarde demais.