Por que diferentes fabricantes têm valores SMART diferentes?

23

Antes de tudo, acho que todo mundo sabe que os discos rígidos falham muito mais do que os fabricantes gostariam de admitir . O Google fez um estudo que indica que determinados atributos de dados brutos que o status SMART dos relatórios de discos rígidos podem ter uma forte correlação com a falha futura da unidade.

Concluímos, por exemplo, que após o primeiro erro de verificação, as unidades têm 39 vezes mais chances de falhar em 60 dias do que as unidades sem esses erros. Os primeiros erros nas realocações, realocações offline e contagens probacionais também estão fortemente correlacionados a probabilidades de falha mais altas. Apesar dessas fortes correlações, descobrimos que os modelos de previsão de falhas baseados apenas nos parâmetros SMART provavelmente são severamente limitados em sua precisão de previsão, uma vez que uma grande fração de nossas unidades com falha não mostrou nenhum sinal de erro SMART.

A Seagate parece estar tentando ocultar essas informações sobre suas unidades, alegando que apenas o software pode determinar com precisão o status exato da unidade e a maneira como o software não informa os valores brutos dos atributos SMART. A Western Digital não fez tal afirmação ao meu conhecimento, mas sua ferramenta de relatório de status também não parece relatar valores de dados brutos.

Eu tenho usado HDtune e smartctl da smartmontools para reunir os valores de dados brutos para cada atributo. Descobri que de fato ... estou comparando maçãs com laranjas quando se trata de certos atributos. Descobri, por exemplo, que a maioria das unidades da Seagate relatam que existem muitos milhões de erros de leitura, enquanto o western digital 99% do tempo mostra 0 para erros de leitura. Também descobri que a Seagate relatará muitos milhões de erros de busca, enquanto a Western Digital sempre parece reportar 0.

P : Como normalizo esses dados? A Seagate está produzindo milhões de erros enquanto a Western Digital não está produzindo nenhum? O artigo da Wikipedia sobre o status SMART diz que os fabricantes têm maneiras diferentes de relatar esses dados.

Aqui está minha hipótese:

Acho que encontrei uma maneira de normalizar (esse é o termo certo?) Os dados.

As unidades da Seagate têm um atributo adicional que as unidades da Western Digital não possuem (ECC de hardware recuperado). Ao subtrair a contagem de erros de leitura da contagem recuperada do ECC, você provavelmente terminará com 0. Isso parece ser equivalente à contagem de "erros de leitura" relatada pela Western Digitals. Isso significa que a Western Digital reporta apenas erros de leitura que não podem ser corrigidos, enquanto a Seagate contabiliza todos os erros de leitura e informa quantos deles conseguiu corrigir.

Eu tinha uma unidade da Seagate em que a contagem de erros de leitura era menor que a contagem do ECC recuperado e notei que muitos dos meus arquivos estavam corrompidos. Foi assim que surgiu minha hipótese. Os milhões de erros de busca que a Seagate produz ainda são um mistério para mim.

Confirme ou corrija minha hipótese se você tiver informações adicionais.

Aqui está o status inteligente da minha unidade digital ocidental, apenas para que você possa ver do que estou falando:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Edit: Aqui está a unidade Seagate que eu estava falando que estava causando corrupção de dados. Esses dados são do HDTune.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

O fato de o ECC de hardware recuperado ser maior que a taxa de erro de leitura bruta é contra-intuitivo na minha opinião.

Isso é o que eu considero uma unidade seagate "normal", onde o ECC recuperado corresponde à taxa de erro de leitura bruta:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

EDITAR:

Quero esclarecer que sei que o Google geralmente considera o SMART inútil. Eu sei que todos devem fazer backup de seus dados. No entanto, estou no negócio de consertar computadores de outras pessoas. A maioria das pessoas não possui backups ou RAID. Não é econômico para as empresas solucionar problemas de discos rígidos; portanto, eles apenas os executam em um RAID até morrerem. Acho útil na minha linha de trabalho verificar o status SMART do disco rígido. Demora cerca de 30 segundos. Se eu tiver sorte o suficiente para que uma unidade com defeito mostre uma dica de falha, como erros de verificação ou setores realocados, eu sei que a unidade é a solução. Se não houver essa dica, provavelmente gastarei muitas horas solucionando problemas de lentidão e corrupção de dados até finalmente descobrir que o disco rígido está com defeito.

Eu só estou tentando ajustar esse processo.

hard-drive smart statistics

— James T
fonte

Há informações com base inteligente no menu de administração em (acredito) gerenciamento de discos. Pode ter habilidades adicionais sobre o smartctl, mas eu não o uso há algum tempo e não o tenho na minha frente.

— Jarvin

@ Dan Oi Dan, não tenho certeza de que ferramenta do Windows você está falando. Você pode esclarecer?

— James T

O problema com o SMART é que é um pouco inadequado; não há inteligência real, apenas algumas equações (provavelmente nem heurísticas). Tudo o que pode fazer é se monitorar e relatar os números, só isso. Por exemplo, eu tenho uma unidade com um cabo de alimentação mal conectado, o que fez com que ela fosse ligada e desligada muito rapidamente várias vezes (emitindo um som de "clique da morte"). Recoloquei o conector, para que funcione sem problemas agora, mas devido à falha temporária (corrigível) de uma vez, ele agora registrou permanentemente um evento RRER no SMART, fazendo parecer que está falhando.

— Synetech 01/01

14

Parece que diferentes fabricantes usam valores SMART para coisas às vezes radicalmente diferentes, como você pode ver aqui :

Meus discos rígidos no ReadyNAS estão relatando alta taxa de erros de leitura bruta SMART, taxa de erros de busca e ECC de hardware recuperado. O que devo fazer?

A Seagate usa esses campos SMART para contagens internas; portanto, esse é um problema conhecido nos discos da Seagate. Procure contagens anormais em outros campos, especialmente no setor realocado Ct e na contagem de erros do ATA.

Então, quando se trata de sua pergunta real ...

Se eu tiver sorte o suficiente para que uma unidade com defeito mostre uma dica de falha, como erros de verificação ou setores realocados, eu sei que a unidade é a solução. Se não houver essa dica, provavelmente gastarei muitas horas solucionando problemas de lentidão e corrupção de dados até finalmente descobrir que o disco rígido está com defeito.

Eu diria que uma boa regra geral é que você só pode esperar que as configurações SMART sejam comparáveis no mesmo fabricante e talvez até no mesmo modelo de unidade!

Portanto, quando você estiver tentando diagnosticar essas contagens SMART, lembre-se disso ... A "contagem de repetições de erros de leitura" de um fabricante pode significar algo totalmente diferente do de outro fabricante. Triste mas verdadeiro. :(

— Jeff Atwood
fonte

14

Ok, antes de tudo, eu discordo de sua premissa.

O Google fez um estudo que indica que certos atributos de dados brutos que o status SMART dos relatórios de discos rígidos podem ter uma forte correlação com a falha futura da unidade.

De fato, eles encontraram o oposto:

... descobrimos que os modelos de previsão de falhas baseados apenas nos parâmetros SMART provavelmente são severamente limitados em sua precisão de previsão, uma vez que uma grande fração de nossas unidades com falha não mostrou nenhum sinal de erro SMART.

Em segundo lugar, os limites SMART não são padronizados. O firmware na própria unidade sinalizará um atributo como "pré-falha", mas os valores brutos não fazem sentido para o usuário. Por exemplo, a Seagate diz :

Vários atributos estão sendo monitorados e medidos em relação a certos limites. Se algum atributo exceder um limite, um teste geral do Status SMART será alterado de Aprovado para reprovado.

Os valores SMART que podem ser lidos pelo software SMART de terceiros não se baseiam em como os valores podem ser usados nos discos rígidos da Seagate. A Seagate não fornece suporte para programas de software que pretendem ler atributos e limites SMART individuais. Pode haver alguma correção histórica em unidades antigas, mas novas unidades, sem dúvida, incorporarão soluções, atributos e limites mais novos.

Resumo:

Os valores brutos do SMART são quase sem sentido, pois diferentes fabricantes os usam de maneiras diferentes e têm limites diferentes etc. O próprio firmware da unidade informará quando estiver em "pré-falha" ... ou talvez não, o SMART realmente não está muito confiável.

Faça backups regulares!

— sml
fonte

Com base nos seus comentários, não parece que você leu todo o meu post. É por isso que coloquei todas as informações e citações de fundo. Você citou o Google, mas apenas uma parte muito selecionada dele. Se você ler a parte imediatamente antes da sua cotação ... ela indica que alguns atributos têm uma forte correlação de falhas ... como as contagens do setor realocado. Os fabricantes não relatam suas unidades como estando em um estado de pré-falha após um setor realocado. Isso indica claramente que você pode obter uma melhor indicação da integridade da unidade observando os dados brutos.

— James T

Eu também gostaria de acrescentar que minha unidade da Seagate estava corrompendo meus dados e os valores brutos dos dados eram visivelmente diferentes do que eu aprendi como unidades íntegras. Claramente, algo está errado com o local em que o fabricante define o limite.

— James T

Eu acho que você precisa reler meu post e link. Os valores brutos do SMART não são indicadores confiáveis de nada . O relatório do Google não diz que "alguns atributos têm uma forte correlação de falhas". O que ele diz é que, apesar do fato de que "após o primeiro erro de verificação, as unidades têm 39 vezes mais chances de falhar dentro de 60 dias do que as que não apresentam esses erros", menos de 15% da população com falhas apresentou algum erro de verificação. É um indicador confiável se estiver correto 15% do tempo?

— SML

1

@ scottl Não sei de onde você tirou seus 15%. Eu não vi isso no artigo. Mesmo que apenas 15% de suas unidades tenham erros de verificação ... eles descobriram que uma unidade com erros de verificação tem 39 vezes mais chances de falhar em 60 dias. Isso não significa que sua unidade não falhará, a menos que você tenha erros de verificação. Isso significa apenas que, se houver um erro de verificação ... a vida útil restante dos discos rígidos provavelmente será curta. Você já fez estatísticas? Eu achei muito útil.

— James T

1

A FAQ do smartmontools diz: Os atributos SMART brutos (temperatura, duração da inicialização e assim por diante) são armazenados em estruturas específicas do fornecedor. Às vezes isso é estranho. Os discos Hitachi (pelo menos alguns deles) armazenam a vida útil em minutos, em vez de horas (veja a próxima pergunta abaixo). Os discos da IBM (pelo menos alguns deles) têm três temperaturas armazenadas na estrutura bruta, não apenas uma. E assim por diante.

— SML

4

Não sei exatamente qual é a pergunta que você está fazendo. Parece que você tem toda a pergunta e resposta em um, mas ...

Você comparou as métricas do disco rígido com as fornecidas pelo SeaTools

É a ferramenta de diagnóstico de hardware padrão da Seagate e o AFAIK, a ferramenta de diagnóstico de disco rígido mais usada.

Não se surpreenda se você achar que as ferramentas relatam resultados desfavoráveis sobre seus concorrentes. As ferramentas geralmente funcionam com HDDs de todos os fabricantes, mas isso não significa que eles tenham feito com que seus concorrentes pareçam bem.

Você nunca ouviu a piada, "99,99% de todas as estatísticas são verdadeiras, exceto, é claro, esta estatística".

— Evan Plaice
fonte

1

Sim ... é um pouco confuso. Basicamente, coloquei todas as informações básicas com as quais estou familiarizado antes da pergunta e todos os meus testes e conjecturas após a pergunta. Aqui está minha pergunta "Como normalizo esses dados?". Basicamente .. como faço para que todos os atributos de dados de um fabricante significem a mesma coisa que os atributos de dados de outro fabricante para que eu possa compará-los com precisão.

— James T

@ James Você pode tentar coletar dados da maior diferença possível e descobrir como cada um interpreta os dados de maneira diferente. Todos podem estar relatando dados corretos, podem apenas interpretá-los de uma maneira diferente, como você apontou. Foi por isso que adicionei a citação de estatísticas ... Só porque os dados são bons, não significa que as interpretações sejam.

— precisa

2

Sim, foi isso que eu fiz. Eu verifiquei mais de 70 discos rígidos diferentes e a grande diferença nos erros de busca e leitura são os atributos que mais me impressionaram. Suponho que, para as unidades da Seagate, os erros de leitura tenham algum tipo de relacionamento com o hardware ecc recuperado. Não sei exatamente o que é esse relacionamento. Eu esperava que alguém aqui pudesse me dizer. Eu também esperava que alguém pudesse me dizer por que as unidades da Seagate têm uma grande quantidade de erros de busca, enquanto a Western Digital sempre parece ter zero.

— James T

@ James Talvez alguém venha com uma resposta melhor ... Meu palpite sincero é que a Western Digital provavelmente não segue a especificação SMART exata. Esse é o problema dos padrões de hardware, eles são ótimos pontos de venda, mas sempre existem alguns fabricantes que comercializam todos os benefícios sem seguir a especificação completa.

— precisa

Sim, o desvio do padrão é o que eu imaginei e o que o artigo da Wikipedia sugere. Gostaria de saber como eles diferem para que eu possa comparar adequadamente os dois fabricantes (e possivelmente outros). Obrigado pelos comentários Evan. Espero que isso esclareça a pergunta para os outros também.

— James T

2

Na realidade física dos internos do disco rígido, todas as marcas de discos rígidos maiores que 100 MB terão muitos erros de leitura física. A maioria deles é corrigida com segurança pelo ECC, alguns (espero muito poucos) são erroneamente corrigidos pelo ECC e o restante (poucas, porém mais que as correções incorretas) são relatados de volta ao computador como falha na leitura e também devem fazer com que a unidade realoque automaticamente a unidade. setor ruim.

Além de corrigir erros brutos de leitura, o ECC também corrige as leituras de que o hardware estava bom, mas os bits retornados estavam um pouco errados. Portanto, o ECC corrigido pode ser "falha na leitura bruta, mas corrigida pelo ECC +, a leitura bruta foi bem-sucedida, mas estava errada e foi corrigida pelo ECC".

Assim, duas interpretações dos dados parecem possíveis:

A. As unidades não pertencentes à Seagate não incluem os erros de leitura corrigidos pelo ECC na "contagem bruta de erros de leitura", apenas os erros não corrigíveis.

B. A Seagate considera um erro de leitura se o ECC encontrar algo errado com os dados, mesmo que o circuito de baixo nível não tenha notado, outros não.

A normalização será muito diferente, dependendo da teoria (A ou B) correta.

— Jakob Bohm
fonte

> também deve fazer com que a unidade mude automaticamente o setor defeituoso. Então, qual é a relação entre os campos Contagem incorreta de eventos realocados e Contagem atual de setores pendentes ? Não aumentaria a corrente e , em seguida, seria relocalizada ou incorrigível ? Por que seria incorrigível? Se ele tentou remapear um setor defeituoso e falhou (ou seja, o setor de reposição é ruim), não deveria tentar remapear para outro setor de reposição? não é um pneu que tenha apenas um sobressalente.

— Synetech

100 MB? Você quer dizer 100 GB?

— precisa