Quando vale a pena o RAID?


14

Em nossa loja, estamos usando fielmente o RAID em todas as nossas estações de trabalho, provavelmente apenas porque essa parece ser a maneira que deve ser feita. Estou falando de estações de trabalho para simulações científicas, usando os chips RAID integrados.

Mas ouvi muitas histórias de horror sobre RAID. O próprio Stackoverflow sofreu uma interrupção causada indiretamente pelo controlador RAID .

O RAID protege você contra um tipo muito restrito de falha - falha no disco físico - mas, ao mesmo tempo, também apresenta pontos extras de falha. Pode haver problemas com o controlador RAID, e geralmente existem. Pelo menos em nossa loja, parece que os controladores RAID falham pelo menos com a mesma frequência que os próprios discos. Você também pode facilmente estragar alguma coisa com o processo de troca de uma unidade com defeito.

Quando vale a pena o RAID? Você não obtém um melhor retorno do investimento ao adicionar mais redundância às suas soluções de backup? Que tipo de RAID é melhor ou pior a esse respeito?

Edit: eu mudei o título do original "O RAID vale a pena?", Por isso soa menos negativo


3
Quando você diz que usa RAID em estações de trabalho, fico imaginando o que você quer dizer com RAID. O RAID que é enviado como parte do chipset de uma placa-mãe de classe desktop não é realmente RAID. O RAID real é uma opção cara (várias centenas, talvez milhares de dólares), geralmente implementada como uma placa PCI de algum tipo. Pense Adaptec ou LSI, não Promise.
2513 Jason Tan

1
Você está certo, estamos usando alguma solução de chipset on-board. Talvez minha pergunta deva ser um pouco modificada: o RAID barato vale a pena?
Amarillion

Respostas:


17

Não se preocupe, o RAID não é usado em todo o mundo dos negócios por causa do pensamento de grupo! A chance de falha de controladores RAID decentes é muito, muito menor do que a chance de uma falha no disco. Não me lembro de ter visto um controlador RAID falhar na vida real, enquanto eu vi muitos discos morrerem, tanto no escritório quanto no datacenter.

PS: Eu vejo suas tags. RAID não é backup! :)


1
Certo, não é backup. Então é redundância? Então, é realmente tudo sobre altos tempos de atividade? A menos que você precise de cinco noves, realmente não precisa de RAID?
Amarillion

6
Não, é sobre disponibilidade. Desmontar a máquina quando quiser é bom. Ter um único disco rígido decidido derrubar sua máquina não é. Usar o RAID corretamente impede que isso aconteça.
30610 Matt Simmons

9
@amarillion. Uau, isso é um sentimento perigoso. Quanta experiência com discos rígidos você tem? O RAID é praticamente necessário para até 2 noves de confiabilidade (mais ainda, quanto mais discos rígidos estão no mix), e o RAID por si só definitivamente não o levará a cinco noves, você precisará de datacenters redundantes para isso, pelo menos. Mesmo assim, é um crapshoot, 5 noves são BS de gerenciamento de fantasia, menos de uma hora de inatividade por década (~ 5 min / ano). Nem mesmo os backbones IP têm isso.
04 de

4
@ amarillion: Alguns de meus clientes têm desenvolvedores no local que faturam US $ 200 / h. Ou trabalhadores que respondem a situações de vida ou morte. A interrupção desses trabalhadores por um disco rígido de US $ 80 me parece meio burra, YMMV.
duffbeer703

3
Não. O RAID protege você contra falhas no disco rígido. Não o protege de 'rm -rf /'. É para isso que servem os backups!
317 Alex Alex

9

O ZFS by SUN (também parte do OpenSolaris; Apples OSX - atualmente somente leitura) não apenas realiza ataques em vários níveis, mas sempre verifica se os dados gravados no disco estão realmente lá. consistência é a chave! O RAID é inútil se você não puder confiar em sua integridade . Escolha um controlador RAID decente (eu prefiro HP) e limpe seu RAID para encontrar erros periodicamente.

O Softwareraid (como ZFS), por outro lado, deixa você mais independente de hardware se o controlador RAID morrer e você não conseguir uma substituição exata.


8

Sempre. Os discos são baratos, suas informações não são. Mas use o RAID de software para ter flexibilidade para avançar ou alterar o hardware mais tarde (confie em mim, você precisará dele). E também use um sistema de arquivos de soma de verificação como o ZFS, para proteger contra corrupção de dados silenciosa (o que é muito provável com discos grandes hoje em dia).


8

Para aqueles que dizem que não usarão RAID de hardware, porque se o controlador falhar e você não conseguir uma substituição identcial, você está fazendo o caminho errado.

  1. Se o tempo de atividade é crítico para você, você NÃO deve comprar hardware barato. Como foi dito antes, use um bom controlador de ataque, HP, LSI, Dell etc.

  2. Se o controlador foi comprado do fabricante do computador, ou seja, o servidor Dell, com o controlador RAID da Dell, a Dell informará por quanto tempo eles estocarão essas peças, normalmente no período de mais de 4 anos a partir da EOL desse servidor.

  3. Se ter alguém executando novamente rapidamente significa que você não pode esperar a entrega, você deve comprar um segundo controlador sobressalente para você, independentemente de quem o fez.

  4. Se você configurar como um RAID 1, às vezes você pode pegar uma dessas unidades e soltá-las em um controlador normal para recuperar os dados. Se isso for importante para você, confirme / teste isso com seu controlador antes de estar em uma situação crítica.

O RAID de hardware salvou minha bunda 2x. Uma vez em um servidor de e-mail, uma das unidades falhou, recebi o alerta de e-mail do software de monitoramento de ataque naquela máquina, liguei para a dell e tinha uma nova unidade no dia seguinte, instalei-a e reconstruí-la por conta própria. ZERO tempo de inatividade naquele

Segundo, houve uma falha na unidade em um servidor de arquivos antigo que estava programado para ser substituído em 6 meses. O controlador manteve a operação e nós mudamos a substituição do servidor para aquela semana. Economizou comprando uma nova unidade (já que estava fora de garantia) e novamente com ZERO inatividade.

Eu usei ataques de software antes e eles simplesmente não se recuperam tão bem quanto um baseado em hardware. Você precisa testar sua configuração, software ou hardware para garantir que funcione e saber o que fazer quando o material marrom atingir o ventilador.


3
As pessoas tendem a considerar o RAID como um tipo de seguro. Se eles não sofrerem um "acidente", os benefícios do RAID (seguro) nunca parecerão aparentes. Obrigado por compartilhar sua história, pois muitas pessoas (acho) tomam o RAID de ânimo leve, porque se elas nunca tiveram uma experiência ruim, por que investir em algo que pode não acontecer? Isso deve ser uma lição para todos que estão lendo: um controlador RAID sólido e de hardware salvará sua bunda nessa chance de um milhão / bilhão. Não deixe ao acaso; sempre use um bom controlador RAID de hardware, especialmente para servidores.
osij2is 24/07/2009

6

Falhas no disco rígido são muito mais prováveis ​​de acontecer em um servidor do que em uma estação de trabalho de desktop ...

Você não pode simplesmente dizer "adicionando mais pontos de falha" sem levar em conta a probabilidade dessa falha. Especialmente porque esses pontos menos prováveis ​​de falha existem especificamente para subverter a falha mais provável na unidade de disco rígido. Como você disse, você basicamente criou uma falácia do tipo Pascal's Wager .

A maioria dos sistemas RAID nas placas-mãe de desktop são híbridos de software / hardware baratos, com a maioria do trabalho realizado em seu driver de software. IMHO são pedaços de lixo usados ​​para vender a usuários avançados.

Por outro lado, um bom RAID de hardware real é bastante confiável e possui o hardware necessário para funcionar sem (apesar?) Do sistema operacional. Mas isso fica caro, porque o hardware real geralmente possui backups de bateria e uma matriz completa de XOR para calcular somas de verificação, etc. Ainda mais caro se for feito com SCSI.

Resumo: Se você estiver executando os sistemas RAID baseados na placa-mãe, não, não vale a pena.


3
Um colega administra um grande ambiente de TI da escola com 180.000 estações de trabalho com um serviço de assistência de primeira linha. 7% de seus desktops exigem uma substituição de hardware dentro do seu ciclo de vida de 5 anos e 85% dessas substituições são discos rígidos.
Duffbeer703 31/05/09

Sim, mas se uma estação de trabalho ficar inativa, basta que o usuário faça logon em outra máquina enquanto estiver consertando a estação danificada. Com tantas estações de trabalho, elas devem ser um repositório central de arquivos. Gostaria de saber como seria a estatística com 180.000 servidores.
31329 Ape-inago

1
Você está certo em muitas circunstâncias - mas não para todos. No cenário de meu amigo, muitos desses PCs estão nas salas de aula e, se estiverem quebrados, essa classe não tem computador e isso é um grande negócio. No meu trabalho, temos estações de trabalho sobressalentes e realmente não nos importamos.
duffbeer703

5

Embora os backups e o RAID sejam soluções para problemas diferentes, a maioria dos "problemas de RAID" é muito semelhante ao problema de backup mais comum (ou seja, ninguém testa uma restauração) - ninguém testa a recuperação do sistema. Outros problemas de RAID geralmente são um resultado direto de pessoas que não entendem o que faz e o que não faz. Por exemplo, muitas pessoas pensam que o RAID garante a integridade de seus dados - não garante.

Para estações de trabalho, se você estiver usando o RAID-0 para melhorar o desempenho de aplicativos vinculados à IO, ou o RAID-1/5/6 para manter o cientista de US $ 100 / hora trabalhando quando o disco rígido de US $ 80 falha, você está usando o RAID de forma adequada. Apenas não confunda redundância de disco com backup e testou procedimentos para garantir que seus funcionários de TI lidem com a recuperação.


Boa nota para estações de trabalho. As necessidades da estação de trabalho são completamente diferentes das necessidades do servidor. E um enfático sim em "..não confunda redundância de disco com backup".
Osij2is

4

Existem dois tipos de RAID

  • Um que é barato e integrado. Este NÃO é um ataque real, o trabalho real é feito pelo software (o driver especial faz os cálculos do ataque). Você deve evitar este.
  • O outro é caro, mas o que você recebe é um ataque real. Se você pode pagar isso vale o dinheiro.

Alguns sistemas operacionais têm uma boa solução de invasão de software (isso não tem nada a ver com os cartões de baixa qualidade mencionados acima). O ataque ao software Linux é especialmente bom, seu desempenho é realmente bom.

O ataque só pode melhorar a confiabilidade, não é uma solução de backup. Os arquivos podem ser excluídos acidentalmente, o disco defeituoso pode retornar (e duplicar) dados ruins para outros discos em uma matriz de ataque, portanto, ainda é necessária uma solução de backup real.


4

O RAID é ótimo para o tempo de atividade, mas não substitui o backup. Como um colega comentou certa vez: "Você sabe que 'Ah, que merda!' ', Quando você excluiu algo acidentalmente? RAID significa apenas que você pode' Ah, que merda! 'Mais de uma unidade ao mesmo tempo".

Dito isto, naquele dia em que você coloca a cabeça no escritório do seu chefe e diz a ela: "A propósito, o servidor de banco de dados sofreu um acidente no disco rígido ontem à noite - nós nunca caímos, ele terminou de ser restaurado às 5 da manhã e Enviei a unidade defeituosa na garantia "- é quando o RAID não tem preço.


2

Qual é a sua taxa de falhas em discos rígidos e controladores RAID? A falha no controlador RAID deve ser muito menor que os discos. Se você tiver uma alta taxa de falhas, convém observar o ambiente, como descargas estáticas que podem estar causando problemas.

Para estações de trabalho, convém usar o software raid, conforme sugerido pela Alakdae, porque você não precisará se preocupar em manter os estoques do controlador de hardware preciso. No entanto, você deve ter todas as informações vitais armazenadas em seus servidores, que possuem invasões de hardware e são copiadas para diferentes mídias.

Os fabricantes de hardware de servidor mantêm controladores RAID, portanto, mesmo que seja um controlador mais antigo, você ainda pode obtê-los se precisar (isso vai custar um centavo).


2

Parece que muitas das postagens acima estão esquecendo a pergunta original e estão apenas debatendo sobre o RAID 1. A pergunta era "Quando vale a pena o RAID?" Bem, isso depende ... Se seus desenvolvedores fizerem muitos dados de leitura e gravação em suas estações de trabalho, uma configuração RAID 0 valeria a pena. Adicionar mais unidades a este RAID 0 certamente aumentará a velocidade e o desempenho, mas aumentará a probabilidade de uma falha (disco ou controlador).

Trabalho em uma escola de enfermagem com cerca de 500 máquinas Dell implantadas e quase nenhuma delas utiliza nenhum tipo de RAID. Parece-me que meu tipo de usuário não terá benefícios suficientes para adicionar a complexidade de um sistema RAID em cada máquina. Preocupo-me mais com a recuperação de dados e a criação de imagens de disco do que a velocidade do RAID 0 ou a redundância do RAID 1. É claro que não estou falando de nossos servidores de produção, isso é outra história. Como a recuperação de dados é crucial, contamos com outros métodos de backup para explicar mais do que apenas redundância de disco. Qualquer tipo de RAID não ajudará se um usuário excluir um arquivo acidentalmente.

Portanto, para responder à sua pergunta, IMHO ... RAID 0 em uma estação de trabalho vale a pena quando o usuário precisa do desempenho. (Apenas verifique se todos os dados importantes estão em backup.) Tenho certeza de que você pode verificar a taxa de transferência de dados na configuração existente para ver se é adequada. O RAID 1 deve ser usado no ambiente do servidor em que controladores RAID de classe superior estão disponíveis. Não vale a pena o hassel em uma estação de trabalho porque complica a implantação, a criação de imagens de disco e os reparos. Muitas dessas estações de trabalho vêm com controladores RAID construídos na placa-mãe. É uma boa sensação saber se uma placa-mãe sai em uma máquina. Eu sempre posso colocar a unidade em outro sistema para obter os dados.


2

O RAID do software Linux é excelente e, na verdade, supera o RAID de hardware de gama baixa. Ele também possui algumas otimizações que podem ser úteis para uma estação de trabalho. Por exemplo, ele pode ler coisas diferentes em cada disco ao mesmo tempo, dobrando efetivamente os tempos de leitura de acesso aleatório, que é um caso de uso comum, diferentemente das operações vinculadas à taxa de transferência otimizadas pelo RAID 0 .

Quanto à confiabilidade, é uma parte muito bem mantida do kernel Linux, usada por milhões de pessoas, que lida muito bem com as falhas de hardware; portanto, é claramente uma vitória no que diz respeito à disponibilidade. Eu o usei em minhas estações de trabalho pessoais, bem como em algumas dezenas de servidores low-end por anos, alguns bem carregados, e nunca pude atribuir nenhum defeito a ele. Entretanto, experimentei uma boa dúzia de discos quebrados.

No entanto, as placas RAID de hardware de ponta têm outros recursos, como o cache de gravação com bateria. Basicamente, multiplica a velocidade de gravação aleatória em disco sincronizado por dez. É absolutamente necessário para bancos de dados, provavelmente bastante inútil para as estações de trabalho.


Espero que duplica o acesso aleatório velocidade de leitura / /, não lê / hora / :)
Bill Weiss

1

Acabei de fazer com que os controladores RAID em dois servidores (idênticos) falhassem, uma vez que adquirimos essas duas máquinas e não tivemos uma falha no disco rígido em toda a empresa.

Eu acho que o RAID no desktop é uma péssima idéia, os controladores RAID baratos que você vai colocar nessas máquinas falharão muito antes do disco rígido real.

Nos servidores, talvez, não vou confiar nos controladores RAID novamente, verifique se você tem uma máquina sobressalente e bons backups.


1

Sou desenvolvedor e todas as nossas estações de trabalho usam RAID para as unidades internas. RAID 0. Isso definitivamente vale a pena. Você nunca deseja voltar a compilar a partir de uma única unidade de 7200RPM depois de experimentar um par de 15000s.
Fui questionado se é o RAID ou a unidade de 15k que está diminuindo o tempo de compilação. Eu não sei, para compilar uma única unidade rápida pode dar exatamente o mesmo desempenho. No entanto, uma única unidade SAS não é particularmente grande para um PC moderno; portanto, o RAID a bordo caro ainda tem um lugar. Isso e duvido que o RAID possa prejudicar o desempenho do sistema.
Acho que esse tipo de RAID é certamente apropriado para uma estação de trabalho e provavelmente é melhor usar os controladores on-board de baixo custo. Do lado do servidor, a maioria dos nossos servidores possui alguma forma de matriz RAID para o disco do SO e os dados ficam em uma matriz separada, de alguma forma apropriada. Eu não sei sobre nossos servidores de produção, mas nossos servidores de desenvolvimento (dos quais temos uma quantidade razoável) nunca tiveram uma falha no controlador, mas tivemos unidades com falha. Em um caso, tivemos metade da matriz do SO falhada em uma caixa SQL, enquanto ela estava sendo reconstruída, o outro disco falhou! Às vezes, o RAID1 não basta!


1
Eu tenho que ligar para o BS neste. O RAID 0 é inútil para uma estação de trabalho do desenvolvedor. O RAID 0, na melhor das hipóteses, duplica as taxas de transferência; não faz nada para acesso aleatório. Adivinha o que os desenvolvedores fazem ... leem e escrevem muitos arquivos minúsculos, e o ocasional arquivo grande. A única estação de trabalho que seria útil seria a de um designer gráfico fazendo edição de vídeo, onde você precisa de todos os GB / s que conseguir.
NiXar 31/05/09

Isso pode ser verdade, não comparei o desempenho de uma única unidade de 15k sas com a do raid 0. de unidade dupla. Atualizei minha resposta.
31440 pipTheGeek

1
Depende do que seus desenvolvedores fazem. Temos pessoas que trabalham com grandes conjuntos de dados que notam uma melhora significativa no desempenho, especialmente durante as compilações. O pessoal do GIS também notou um aprimoramento com o RAID 0.
duffbeer703

Passar de um 7.2k para um drive de 15k significaria uma aceleração substancial. Não há muito mais para ser adquirida a partir Raid 0.
Loren Pechtel

Certamente um único SSD seria mais barato e mais rápido hoje em dia?
Dentrasi

1

Para suas estações de trabalho científicas, pode valer a pena se esses sistemas funcionarem melhor com seus dados armazenados localmente, em oposição a um compartilhamento em um servidor de arquivos. Para a população em geral, no entanto, eu diria que não. Não vale a pena o aborrecimento e a dor de cabeça quando tudo o que você realmente precisa é restaurar dados que devem ser mantidos em compartilhamentos.


1

O RAID é útil apenas quando você absolutamente positivamente não pode ter o servidor inoperante inesperadamente. Usamos RAID em todos os nossos servidores em nosso datacenter, onde não há outra forma de redundância. Por exemplo, não usamos RAID em nossos servidores da web, porque ainda existem outros 10 funcionando.

O teste decisivo é "se um disco quebra no meio da noite e não pode esperar até as 9h, ele precisa de RAID"


Existem outros contextos nos quais faz sentido - como se você não tiver uma maneira rápida e fácil de restaurar a máquina ao seu estado anterior.
cp.engr 8/01/19

1

O RAID vale a pena quando você tem um controlador com bateria.

Para aplicativos de servidor que freqüentemente registram arquivos de log fdatasync () (o que não é incomum nos bancos de dados) para maior durabilidade, você acaba escrevendo os mesmos blocos repetidamente. Isso reduzirá o desempenho de IO se você não tiver um controlador com bateria.

Se você possui um controlador com bateria, muitas das gravações nem chegam aos discos, permanecendo na memória até serem substituídas por outra gravação. Isto é uma coisa boa.

A redundância é um bônus, mas não essencial, pois coisas importantes devem ser redundantes no nível do sistema.


1

Implementações baratas de RAID são terríveis.

Suas escolhas são, em ordem de confiabilidade:

1) servidores HP DL com seu RAID de hardware.
2) placas RAID 3Ware.
3) ZFS
4) Invasão de Software Linux

Qualquer outra coisa está pedindo problemas e, de fato, pode resultar em confiabilidade geral menor do que em uma solução não RAID.

Considere o que fazer se o seu controlador falhar e o fabricante falir.

Considere se você pode se recuperar de uma aparente falha no disco duplo causada por problemas de energia / cabeamento.

Esses são dois exemplos entre centenas.


1

Para estações de trabalho, o RAID provavelmente não vale a pena em comparação com um novo sistema no qual os dados podem ser restaurados ...

Muitos estavam falando sobre o RAID 0 ... isso não existe para ajudar na disponibilidade. Você está dobrando as chances de o volume falhar, uma vez que uma unidade morre, você perde tudo. O RAID 0 é apenas uma brincadeira com velocidade de acesso a leituras / gravações em um volume e oferece mais armazenamento. A única maneira de ajudar isso em um ambiente de negócios é pegar dois RAID 0 e espelhá-los como RAID 1.

O RAID não é uma solução de backup, como foi apontado.

RAID também não é perfeito. Acho que este post do blog desse tipo resume como me sinto em relação ao RAID e quando vale a pena: Pensando em RAID?

Em uma estação de trabalho, você deve conseguir que uma pessoa use outro sistema enquanto uma substituição é lançada. Por que usar RAID? Seus dados devem ser armazenados no servidor em que o gerenciamento, a integridade dos dados e os backups são centralizados. A estação de trabalho deve ser configurada para que possa ser atualizada ou alterada periodicamente conforme as finanças permitirem e o RAID é apenas mais uma camada de custo e dor de cabeça para gerenciar (além de problemas de uso de energia e aquecimento com unidades adicionais e imposição de fluxo de ar). Na maioria dos casos, para as empresas, é provavelmente muito mais econômico colocar o dinheiro de uma placa RAID em uma unidade maior e, se você estiver usando RAID integrado, ainda terá problemas, pois tende a amarrar o RAID. formato para a placa-mãe (e não é verdade RAID de qualquer maneira ... ele é encontrado nas pesquisas do Google como "ataque falso".


0

Por que se preocupar em uma estação de trabalho? Certamente você tem todos os seus diretórios pessoais e dados armazenados centralmente. É aí que você deseja usar o ataque.


0

Se você se preocupa com a falha de um controlador de unidade, também precisa considerar a falha do servidor - ventoinhas, placa-mãe, RAM, rede .. e também deve considerar a falha do roteador, os cabos e a energia ... e você também precisa considerar a falha do datacenter (inundação, incêndio, erro humano) e, em seguida, a falha da rede externa (corte de cabos - o tempo todo em alguns lugares!).

Em resumo, você pode se preocupar tanto com o tempo de inatividade do site que nunca se incomodaria em colocar qualquer coisa online! Ou você pode fatorar o risco de falha contra o custo da redundância e obter uma abordagem muito mais realista. E de todas as coisas que listei, o disco rígido é o ponto de falha mais provável.

Ao lado de erro humano, é isso. Quem digitou " shutdown -h now" quando eles quiseram reiniciar .... :(


0

Minha grande preocupação são os discos, pois parece que você não pode comprar os mais baratos:

Um grande fornecedor observa:

'A maioria dos controladores RAID é projetada para atingir o tempo limite de um determinado comando se a unidade de disco não responder dentro de um determinado período de tempo. O resultado será que a unidade aparecerá off-line ou será marcada como incorreta e um alerta será dado ao cliente. As unidades de classe corporativa (ou projetadas para ambientes RAID) têm um limite de novas tentativas antes que um setor seja marcado como ruim. Esse limite de novas tentativas permite que a unidade responda ao controlador RAID dentro do prazo esperado. Embora as unidades de desktop possam funcionar com um controlador RAID, a matriz será progressivamente desconectada à medida que a unidade de disco envelhece e pode resultar em perda de dados. '

Isso me parece insano, outro problema que garante que os fornecedores de disco recebam muitos retornos de pessoas que 'não sabem melhor'. No entanto, li que o Google fez um white paper (não é possível encontrá-lo) que mostra que não há diferença na confiabilidade da unidade entre as duas 'classes' oferecidas pelos fornecedores de armazenamento. Duvido que o Google use controladores de invasão de hardware em sua frota de caixas bege.

Talvez o mdadm (no linux raid) tenha configurações que você possa usar para lidar com as configurações mais impacientes nos firmwares de unidades de desktop?

Talvez, na realidade, todos estejam pagando por sua garantia por um período de tempo limite inativo no firmware do controlador?

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.