Devo 'executar' um disco de um novo par RAID 1 para diminuir a chance de um tempo de falha semelhante?


19

Estou configurando uma matriz RAID1 de dois novos discos rígidos de 4 TB.

Ouvi em algum lugar anteriormente que a criação de uma matriz RAID1 de novos discos rígidos idênticos comprados ao mesmo tempo aumentava a chance de que falhassem em um ponto semelhante no tempo.

Portanto, estou pensando em usar um dos discos rígidos por um período de tempo (talvez algumas semanas) por conta própria, em uma tentativa de reduzir a probabilidade de ambos falharem em um curto período de tempo. (a unidade não utilizada seria mantida desconectada em uma gaveta)

Parece uma abordagem razoável, ou provavelmente estou apenas perdendo meu tempo?


2
É uma reivindicação frequentemente ouvida, mas ainda não vi nenhuma documentação que a suporte. Um risco muito mais real é que um de seus discos desenvolva alguns setores defeituosos, que passam despercebidos por um tempo. Mas quando o outro disco falhar, você notará esses setores defeituosos durante a reconstrução.
kasperd

8
Se você estava trabalhando com dezenas de unidades, pode valer a pena considerar o fornecimento de alguns lotes. Para um conjunto de duas unidades, não vale a pena fazer isso. A taxa de falhas simplesmente não é tão parecida ou previsível ... uma pode durar 3 meses, a outra pode durar 5 anos.
jlehtinen

Eu pessoalmente não invadiria com apenas duas unidades. O uso de mais unidades oferece melhor capacidade. Por exemplo, 3 unidades renderiam 8 TB de armazenamento total, diferentemente de 2 unidades, fornecendo apenas 4 TB. Qualquer unidade pode falhar no conjunto de três e, se vierem de três fontes, as chances de falha ao mesmo tempo são baixas.
Phyrfox 17/03/2015

3
@phyrfox - O RAID-5 (e -6) possui características de desempenho diferentes do RAID-1 que podem não ser compatíveis com o aplicativo. Com unidades grandes (principalmente unidades de qualidade para o consumidor), se eu usasse níveis mais altos de RAID, eu definitivamente usaria o RAID-6 para me proteger contra uma segunda falha de disco enquanto reconstruía a matriz após uma única falha de disco. Estou executando um array RAID-6 de 5 discos há 2 anos, usando um conjunto de unidades adquiridas ao mesmo tempo - um disco falhou por mês, o resto não mostrou nenhum problema.
19415 Johnny

1
O @phyrfox RAID5 diminuirá o custo por megabyte, mas aumentará a chance de ocorrer uma falha, pois há mais unidades com falha.
Caltor # 17/15

Respostas:


16

É uma perda de tempo.

Você não poderá induzir falhas ou forçar as unidades de maneira significativa. Você tem RAID, e esse é um bom começo. Apenas verifique se você possui um monitoramento para realmente detectar falhas à medida que ocorrem e backups para proteger contra desastres.


2
Concorde com HDS convencional, mas para ssds é uma história muito diferente. Achei que isso valia a pena observar agora, antes que os ssds de 4 TB se tornem baratos e disponíveis e os leitores não percebam que estamos falando de ferrugem, mas talvez até lá eles possam lidar com mais gravações.
symcbean 17/03/2015

3
Sim - certamente qualquer unidade 'corporativa' já foi testada de imersão para superar as falhas de vida precoce na curva da banheira. Embora eu saiba se você compra um par de geradores, o conselho é alternar entre 66% e 33%, porque dessa forma os dois não se desgastam simultaneamente. Porém, com os drives, o MTBF tem um desvio padrão bastante grande, portanto é muito menos uma preocupação.
Sobrique

5

Talvez seja melhor usar marcas diferentes ou séries de disco juntas, se você estiver preocupado com isso.

Eu ter visto discos de tipo e idade similar falha em clusters, então IMHO não é uma Leend urbana.


1
Eu também, mas isso se deve ao firmware desonesto, e não a qualquer coisa relacionada ao MTBF.
Sobrique

2

Ótima pergunta - No entanto, ao contrário dos faróis de automóveis, isso é uma perda de tempo. A classificação MTBF [tempo médio entre falhas] para unidades de 4 GB [WD Red neste exemplo] é de 1.000.000 horas. As chances de duas unidades ficarem ruins no espelho ao mesmo tempo são extremamente raras. Quando eu vi isso acontecer, foi porque a primeira unidade falhou sem que ninguém percebesse. Mais útil proteger com backups do que incomodar a queima de uma unidade primeiro. Se você misturar tipos de unidades, verifique se as unidades têm a mesma velocidade. Se você é paranóico, o RAID 10 é para você.


O MTBF assume que os discos são independentes, os quais não estão no mesmo conjunto RAID. Há outras razões pelas quais isso é uma perda de tempo, mas um número ridículo divulgado pelo fabricante que tem uma fraca correlação com a realidade não é um deles.
HopelessN00b

5
Se um HDD realmente teve o tempo médio declarado entre falhas, por que os períodos de garantia são tão curtos? 1 milhão de horas é de 114 anos, mais ou menos. O WD Red Pro (porque eu escolhi um do lote) parece ter uma garantia de cinco anos. Mesmo se você demorar metade do tempo médio até a falha, a Western Digital ainda não acredita que seja confiável por mais de um décimo do período de MTBF indicado. Agora, em que você estaria mais inclinado a acreditar; alguma estatística aleatória sem obrigações, ou onde está o dinheiro? (Devoluções, reembolsos, reformas e substituições de garantia custam dinheiro real.)
a CVn

1
@ MichaelKjörling: Se eles garantissem o MTBF, estariam substituindo mais de 50% (sim, cauda longa na distribuição) das unidades sob garantia. Claro que você deve procurar onde está o dinheiro, mas não vejo razão para acreditar que o MTBF não seja uma ordem de magnitude mais longa que a garantia, e vários para acreditar que está.
Ben Voigt

@ MichaelKjörling Vi hardware com um MTBF publicado de 100 mil horas, que se desgastaria consistentemente após 1 mil horas de operação. A próxima geração do hardware teve um MTBF publicado de 200k horas. Quando o primeiro lote do novo hardware estava em operação por 48 horas, mais de 50% deles havia falhado.
Kasperd

1

Embora faça sentido na teoria, os dados não suportam a necessidade de work insua unidade.
Não apenas algumas semanas realmente não causam impacto, como as porcentagens de falha não funcionam quando se olha apenas para duas unidades.

Embora tenha havido alguma indicação de taxas de falha mais normalizadas quando se trata de unidades do mesmo modelo.

A maioria dos resultados relacionados à idade é afetada pelas safras de carro ... Curiosamente, isso não altera nossas conclusões. Em contraste com os resultados relacionados à idade, observamos que todos os resultados mostrados no restante do artigo não são afetados significativamente pelo mix da população. (ênfase minha)

Como tal, falhas relacionadas à idade, que são apenas um pequeno subconjunto de falhas, podem ser um pouco correlacionadas para gerar safras. Mas a maioria das falhas não pode.
Se você adicionar a isso as porcentagens gerais de falhas, que podem atingir 8% em um determinado ano, as chances de ambas as unidades falharem no mesmo ano são pequenas, e as falhas na mesma semana serão insignificantes.
E isso é se você observar todas as causas possíveis de falha, não apenas as falhas relacionadas à idade.

Se você deseja minimizar o risco, mas duas unidades de um vintage diferente.
Se você quiser garantias, compre um seguro.
E, como a resposta da ewwhite já afirmou, backups e monitoramento são uma obrigação.


0

Isso geralmente é um argumento para SSDs mais do que HDDs na minha experiência. Os SSDs têm ciclos de gravação limitados; portanto, se você usar um RAID1 com dois SSDs do mesmo modelo, os dois deverão ficar sem ciclos de gravação quase ao mesmo tempo.

Quanto a falhas gerais, a menos que você tenha um problema sério, como vibração em massa, estática ou calor elevado; Eu não suspeito que você verá duas de duas unidades falharem ao mesmo tempo.

Uma das principais preocupações do RAID1 (e RAID10) com unidades maiores, como 4 TB, é a reconstrução. Com um espelho de 2 unidades, quando uma unidade falha, a outra unidade carrega duas vezes a carga de trabalho. Então, quando você reconstrói, essa unidade está recebendo ainda mais carga. Se houver algo errado com essa unidade, é provável que falhe nessas condições, especialmente considerando que a reconstrução de um espelho de 4 TB sob carga pode demorar muito tempo.


0

Você pode fazer, mas não vai ajudar muito.

Por exemplo, se houver uma agulha na energia de entrada, a mesma agulha matará os dois discos.

O que é importante: você precisa ter um bom backup. O ataque não compensa um bom backup. Na verdade, se você tiver um bom backup, talvez não seja necessário um ataque de espelhamento (se você puder tolerar o colapso do sistema entre 2 e 3 anos).


3
RAID é sobre disponibilidade, não sobre backup de dados. O objetivo é manter o sistema disponível se uma unidade falhar, não para proteger os dados na unidade.
HopelessN00b

@ HopelessN00b Isso é exatamente o que tentei explicar na resposta, talvez não tenha sido suficientemente claro?
peterh diz restabelecer Monica

Sua sentença no final lá embala as águas.
HopelessN00b

O @ HopelessN00b Raid também protege contra a perda de dados causada por falhas no disco. Isso geralmente leva à falsa conclusão de que pode ser usada como backup. Mas usar invasões e backups, essas são coisas dependentes da situação. Há casos em que mesmo um ambiente profissional de sysadm não precisa dos dois. Na minha opinião, o objetivo não é forçar ambos a um sysadm inexperiente, mas esclarecer que espelhar os discos e fazer backup de seus dados são soluções diferentes para problemas diferentes.
peterh diz restabelecer Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.