Os controladores RAID geralmente têm problemas de compatibilidade com a marca de unidades SATA?


22

Lutamos com o controlador RAID em nosso servidor de banco de dados, um Lenovo ThinkServer RD120. É um Adaptec renomeado que a Lenovo / IBM dubla o ServeRAID 8k .

Corrigimos este ServeRAID 8k até o mais recente e melhor:

  • Versão do BIOS RAID
  • Versão do BIOS do backplane RAID
  • Driver do Windows Server 2008

Este controlador RAID teve várias atualizações críticas do BIOS, mesmo nos curtos 4 meses em que possuímos, e o histórico de alterações é simplesmente ... bem, assustador.

Tentamos estratégias de write-back e write-through nas unidades lógicas RAID. Ainda temos erros intermitentes de E / S sob atividades pesadas do disco. Eles não são comuns, mas sérios quando ocorrem, pois causam tempos limite de E / S do SQL Server 2008 e, às vezes, falha dos conjuntos de conexões SQL.

Estávamos no final de nossa corda solucionando esse problema. Com poucas coisas difíceis, como substituir todo o servidor ou substituir o hardware RAID, estávamos desesperados.

Quando obtive o servidor, tive um problema em que o compartimento de unidade nº 6 não era reconhecido. Mudar os discos rígidos para uma marca diferente, estranhamente, corrigiu isso - e atualizar o BIOS RAID (pela primeira vez) corrigiu permanentemente, para que eu pudesse usar a unidade "incompatível" original no compartimento 6. Em uma palpite, comecei a supor que os discos rígidos SATA da Western Digital que eu escolhi eram de alguma forma incompatíveis com o controlador ServeRAID 8k.

Comprar 6 novos discos rígidos foi uma das opções mais baratas da mesa, então eu optei por 6 discos rígidos Hitachi (também conhecidos como IBM), segundo a teoria de que um controlador RAID IBM / Lenovo tem mais probabilidade de funcionar com os discos normalmente vendido com.

Parece que esse palpite valeu a pena - passamos por três dos nossos dias mais pesados ​​de carregamento (seg, ter, qua) sem um único erro de E / S de qualquer tipo. Antes disso, tínhamos regularmente pelo menos um "evento" de E / S nesse período. Parece que mudar de marca de disco rígido corrigiu nossos problemas intermitentes de E / S de RAID!

Embora eu compreenda que a IBM / Lenovo provavelmente testa seu controlador RAID exclusivamente com sua própria marca de discos rígidos, estou perturbado que um controlador RAID tenha problemas de E / S tão sutis com marcas específicas de discos rígidos.

Então, minha pergunta é: esse tipo de incompatibilidade de unidade SATA é comum nos controladores RAID? Existem algumas marcas de unidades que funcionam melhor que outras ou são "validadas" em relação a um controlador RAID específico? Eu achava que todos os discos rígidos SATA comuns eram iguais e funcionariam razoavelmente bem em qualquer controlador RAID (de qualidade suficiente).

Respostas:


6

Sim , eu encontrei isso com placas low-end e drivers de buggy. No entanto, não , não em um cartão remarcado pela Adaptec atualizado. Uau é tudo o que posso dizer. Uma coisa a considerar, talvez seja mais um bug na unidade do que no controlador RAID.

Não tenho uma boa resposta, mas como você parece ter esgotado a maioria das opções, além de substituir a placa (e a substituição das unidades fez o truque), aqui estão algumas idéias que você pode considerar para a solução de problemas:

  • As unidades WD eram RE (RAID Edition), certo? A recuperação de erros por tempo limitado é importante; portanto, se você não possui isso e a unidade está tentando recuperar o setor, você terá uma pausa muito longa nessa unidade. Se o controlador RAID estiver sendo paciente e não derrubando a unidade, você terá um grande problema em suas mãos.

  • Verifique os dados SMART nas unidades removidas e veja se há algo interessante.

Outro comentário sobre a importância do recurso de recuperação de erro por tempo limitado (TLER), do suporte do fornecedor NAS / RAID:

Como mencionei antes, sempre sugerimos que os clientes usem unidades de nível corporativo se usarem as unidades nas configurações de RAID. As unidades de nível corporativo têm um tempo de resposta mais consistente, para que o RAID seja mais seguro.


Não sei, mas eles têm "recuperação de erros limitado de tempo específico-RAID", como mostrado na guia especificações aqui .. newegg.com/Product/Product.aspx?Item=N82E16822136143
Jeff Atwood

Sim, você acertou. (Observe o RE2 listado no título.) Isso abate essa teoria! Claro, eu ainda iria verificar os dados SMART apenas no caso (sim, eu sei que é raramente útil) ...
TorgoGuy

Afinal, as unidades eram meio esquisitas. Brent Ozar herdou nossos discos antigos e teve de RMA, pelo menos um deles para estranhezas ..
Jeff Atwood

além disso, uma interessante discussão relacionada ao recurso TLER, que parece que alguns fornecedores veem como um software especial que eles lançam para tornar as unidades magicamente "empreendedoras". fatwallet.com/forums/expired-deals/993547
Jeff Atwood

13

Mesmo para discos rígidos de mesa simples e não RAID, comprar unidades do fornecedor (com a marcação ridícula esperada) pode fazer a diferença. Por exemplo, a Apple tem o cuidado de enviar apenas unidades capazes de honrar a F_FULLSYNC fcntl()bandeira do Mac OS X , o que ajuda bastante a garantir que coisas como os backups do Time Machine funcionem de maneira confiável.

Novamente, esse é um uso simples de desktop baunilha sem RAID envolvido. Qualquer coisa mais complexa do que isso e você definitivamente deseja comprar, se não as unidades com preço muito alto do fornecedor, pelo menos os modelos de unidade que você sabe com certeza estão na lista "aprovada" do fornecedor.

Então, para responder sua pergunta, é comum? Eu diria que sim, mais comum do que você imagina, mesmo além do âmbito corporativo.


Eu definitivamente obteria os modelos de unidade que o fornecedor normalmente vende se você fizer uma atualização de unidade DIY para reduzir custos. Eu também recomendaria não comprar drives (ou controladores) com os quais o sistema apenas começou a ser fornecido, para que você não seja o único que encontra os bugs! SATA parece mais esquisito do que SAS a este respeito, por alguma razão ...
Christopher Edwards

4

Eu não acho que isso seja comum por si só. No entanto, assim que você começar a usar controladores de armazenamento corporativo, sejam eles SAN ou controladores RAID independentes, geralmente desejará seguir de perto a lista de compatibilidade deles.

Você pode economizar alguns dólares no preço do adesivo comprando uma variedade barata de discos, mas essa é provavelmente uma das últimas áreas em que eu gostaria de economizar - dada a importância dos dados na maioria dos cenários.

Em outras palavras, a incompatibilidade explícita é muito incomum, mas a aderência explícita à compatibilidade é recomendável.


4

Eu não sonharia em usar discos SATA para um servidor - nenhum deles possui o ciclo de trabalho esperado de uma unidade de qualidade de servidor e não possui o conjunto de comandos avançado que o SCSI / SAS possui para monitorar o desempenho e a integridade da unidade. Os servidores Lenovo são baratos e ótimos se você tiver muitos servidores com nenhum deles realmente tão importante, mas há uma razão para que os servidores da série 300 da HP representem 40% do mercado - eles funcionam. Em particular, seus controladores de disco 'SmartArray' são incomparáveis ​​em confiabilidade e desempenho e sua garantia pré-falha é uma adição bem-vinda. Não é o mais barato, mas quanto vale o seu tempo? Estou comprando seus servidores (bem Compaq primeiro tbh) há vinte anos e não tenho nenhum problema em comprar os 500-800 novos por ano que eu faço. Verifique seriamente.


2

A resposta como sempre é "depende".

Para determinados armazenamentos corporativos (como EMC), o fornecedor qualifica especificamente as unidades e chega ao ponto de carregar o firmware personalizado.

Como Mark diz, acho que é o melhor quando você segue a lista aprovada de um fornecedor, se houver. A economia inicial de custos é superada pelo tempo gasto tentando caçar gremlins.


verdade, mas as unidades Hitachi SATA "especiais" da Lenovo custam US $ 250, e eu posso comprar a mesma unidade Hitachi por US $ 60. Isso é um diferencial de quase 5x, em outras palavras: US $ 1250 versus US $ 300. Estou disposto a fazer algumas experiências para uma grande ..
Jeff Atwood

Sei que a marcação às vezes é ridícula, você deve ver o preço das unidades EMC! Mas tudo se resume a quanto você valoriza seus dados. Ter armazenamento confiável custa $$$. Don MacAskill, da Smugmug, tem elogiado o Sun 7410 e isso pode ser algo que você deseja conferir.
Jauder Ho 30/04/09

Gostaria de saber se existe um cartão 3ware suportado. Eu tive boas experiências com eles ao longo dos anos.
Jauder Ho 30/04/09

2

Você tem um controlador SAS, esse pode ser o problema. Embora o protocolo SAS possa ser usado para encapsular comandos ATA, a sinalização no nível físico é um pouco diferente (o SAS usa tensão mais alta e diferencial mais amplo). Quase todos os controladores são capazes de falar diretamente com unidades SATA, mas se houver um (grande? Péssimo?) Backplane no meio, o sinal poderá ser interrompido. Normalmente, no mundo corporativo, a conexão direta de drivers SATA diretamente a um controlador SAS não é oficialmente suportada; você deve usar um interposer (uma pequena placa lógica que se conecta diretamente ao disco que, por um lado, entende o protocolo SAS completo, por outro lado, fala ATA - dessa maneira, o backplane carrega a sinalização SAS mais alta).

Um pouco relacionado: a mistura de unidades SAS e SATA no mesmo backplane tende a falhar, porque a sinalização de todas as unidades (incluindo SAS) é reduzida para o nível SATA.


1

Provavelmente suas unidades WD precisam de uma atualização de firmware . Consulte esta nota da IBM para fazer o download e aplicar a atualização. Como você pode ver nas instruções , as unidades WD estão longe de ser as únicas com problemas.

Se você for colocar suas unidades em um ambiente de servidor exigente, é provável que tenha mais problemas do que em uma configuração de desktop típica para entusiastas.

Você poderia comentar por que escolheu participar da classe Deskstar série de unidades vez da série Ultrastar da classe Enterprise / RAID ? Você sente que o custo extra não vale a confiabilidade e a velocidade adicionadas?


quando se trata de discos rígidos, acredito em muitos deles - matrizes baratas e facilmente substituíveis, onde o desempenho vem em grande escala.
Jeff Atwood

Tenha cuidado ao usar unidades de desktop com controladores de armazenamento de nível corporativo. As unidades de nível corporativo (geralmente) suportam comandos e consultas que as unidades de desktop não. Um servidor corporativo que uma vez eu herdei estava usando unidades de desktop e via erros frequentes quando o controlador tentava obter informações sobre a temperatura e a saúde das unidades. Como os controladores corporativos presumem que você usará unidades corporativas, o controlador não pôde manipular normalmente uma unidade que não respondeu a essas consultas (já que essa não era uma configuração suportada). É tudo muito YMMV
bta

0

Como engenheiro que trabalha com controladores RAID, posso dizer que não é incomum que algumas marcas de unidades tenham problemas com determinados controladores RAID. Cada unidade tem suas peculiaridades específicas, e qualquer modelo de unidade listado na lista de "dispositivos compatíveis" do controlador terá suas peculiaridades contabilizadas pelo controlador. Para que um modelo de inversor seja exibido na lista, ele precisa atender aos padrões de desempenho e confiabilidade do fabricante do controlador. Qualquer unidade que não esteja nesta lista pode funcionar, mas como ela não passou pelo mesmo teste rigoroso que os dispositivos "aprovados", o YMMV.

Em particular, o protocolo SATA permite comandos específicos do fornecedor (não padronizados) que podem ser definidos pela unidade ou pelo controlador. No seu caso, você pode estar vendo um controlador que espera que uma unidade responda a um comando proprietário específico ou uma unidade que espera ver um comando proprietário que nunca chega.

Outra possibilidade é que suas unidades problemáticas não se comportem muito bem sob determinadas cargas de trabalho estressantes e o comportamento que você vê foi suficiente para que a Adaptec / IBM não liste esse modelo de unidade como suportado.

Infelizmente, os protocolos de armazenamento (SATA, SAS, etc) não são tão bons quanto outras interfaces padronizadas (USB, PCI, etc), onde tudo que você precisa é de um barramento e um dispositivo que falem o mesmo idioma e tudo esteja bem. Especialmente quando se trata de equipamentos de nível corporativo, os fabricantes de dispositivos e os fabricantes de unidades gastam muito tempo e energia colaborativos, garantindo que os clientes obtenham o melhor desempenho possível nas configurações usadas pela maioria dos clientes (ou seja, usando unidades fora do lista de "dispositivos suportados"). Uma unidade que não consta dessa lista pode ter sido projetada para ter um desempenho ideal com uma marca diferente de controlador, e os erros que você está vendo são um efeito colateral da otimização.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.