Sim, é um problema, principalmente porque os tamanhos das unidades aumentam. A maioria das unidades SATA possui uma taxa de URE (erro incorreto de leitura) de 10 ^ 14. Ou para cada 12 TB de dados lidos estatisticamente, o fornecedor da unidade diz que a unidade retornará uma falha de leitura (normalmente você pode consultá-los nas folhas de especificações da unidade). A unidade continuará funcionando bem em todas as outras partes da unidade. As unidades Enterprise FC e SCSI geralmente têm uma taxa de URE de 10 ^ 15 (120 TB) junto com um pequeno número de unidades SATA, o que ajuda a reduzi-la.
Eu nunca vi discos pararem de girar exatamente ao mesmo tempo, mas tive um volume raid5 que atingiu esse problema (há 5 anos, com unidades PATA de consumidor de 5400 RPM). A unidade falha, é marcada como morta e ocorre uma reconstrução na unidade sobressalente. O problema é que, durante a reconstrução, uma segunda unidade não consegue ler esse pequeno bloco de dados. Dependendo de quem está realizando a invasão, todo o volume pode estar morto ou apenas esse pequeno bloco pode estar morto. Supondo que apenas um bloco esteja morto, se você tentar lê-lo, receberá um erro, mas se escrever nele, a unidade o remapeará para outro local.
Existem vários métodos para se proteger: o raid6 (ou equivalente) que protege contra falhas duplas no disco é o melhor; outros são um sistema de arquivos com reconhecimento de URE, como o ZFS, usando grupos de raides menores, para que, estatisticamente, você tenha uma chance menor de atingir a unidade URE limites (unidades grandes espelhadas ou unidades menores raid5), a limpeza de disco e o SMART também ajudam, mas não são realmente uma proteção em si, mas são usados além de um dos métodos acima.
Eu gerencio quase 3000 eixos em matrizes, e as matrizes estão constantemente limpando as unidades à procura de UREs latentes. E recebo um fluxo razoavelmente constante deles (toda vez que encontra um, o corrige antes da falha da unidade e me alerta), se eu estivesse usando o raid5 em vez do raid6 e uma das unidades estivesse completamente morta ... estar com problemas se atingir determinados locais.