O documento da CMU-Intel que você citou mostra (na página 5) que a taxa de erro depende muito do número de peça / data de fabricação do módulo DRAM e varia de 10 a 1000. Há também algumas indicações de que o problema é muito menos pronunciado nos chips fabricados recentemente (2014).
O número '9.4x10 ^ -14' que você citou foi usado no contexto de um mecanismo de mitigação teórico proposto chamado "PARA" (que pode ser semelhante a um mecanismo de mitigação existente pTRR (pseudo Target Row Refresh)) e é irrelevante para o seu pergunta, porque PARA não tem nada a ver com ECC.
Um segundo artigo da CMU-Intel (página 10) menciona os efeitos de diferentes algoritmos ECC na redução de erros (fator 10 ^ 2 a 10 ^ 5, possivelmente muito mais com testes sofisticados de memória e "guarda de banda").
O ECC transforma efetivamente a exploração do Row Hammer em um ataque do DOS. Os erros de 1bit serão corrigidos pelo ECC e, assim que um erro não corrigível de 2bit for detectado, o sistema será interrompido (assumindo o SECDED ECC).
Uma solução é comprar hardware que suporte pTRR ou TRR. Veja a publicação atual da Cisco sobre Row Hammer . Pelo menos alguns fabricantes parecem ter um desses mecanismos de mitigação incorporados em seus módulos DRAM, mas o mantêm profundamente oculto em suas especificações. Para responder sua pergunta: pergunte ao fornecedor.
Taxas de atualização mais rápidas (32ms em vez de 64ms) e intervalos agressivos de patrulha de limpeza também ajudam, mas teriam um impacto no desempenho. Mas eu não conheço nenhum hardware de servidor que realmente permita o ajuste fino desses parâmetros.
Eu acho que não há muito que você possa fazer no lado do sistema operacional, exceto encerrar processos suspeitos com alto uso da CPU e constantes falhas de cache.