Devo me preocupar com um alto valor SMART Hardware_ECC

16

Recebi essa mensagem em /var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Isso significa que o disco está falhando e eu tenho que substituí-lo? Onde posso ler sobre a interpretação dos resultados dos testes SMART?

linux hardware smart

— lexsys
fonte

13

De acordo com Steve Gibson, da Spinrite , fama, os valores SMART precisam ser tomados ao longo do tempo, não como leituras instantâneas. Isso significa que um valor de 47 não é necessariamente ruim se o valor tiver sido de 47 por meses. No entanto, se o valor foi 42 há uma hora e está subindo rapidamente, isso significa que a unidade está com dificuldades para acessar parte dos dados e pode em breve não conseguir ler o setor. Dependendo do valor dos dados nessa unidade, você poderá substituí-los.

— Dave Cheney
fonte

+1 para uma ótima resposta e para adicionar a ela. Se você está realmente preocupado com a Lexsys, eu compraria uma cópia do spinrite e a executaria. Você precisará do seu sistema para inicializar a partir de um CD, mas o sistema operacional é irrelavante. (Althought para criar o CD de inicialização que você vai precisar do Windows, ou um clone Windows)

— Matt

Spinrite vem com um arranque (freedos) .iso imagem que você pode queimar com qualquer sistema operacional atual

— Dave Cheney

grc.com/sr/spinrite.htm seria um lugar melhor para link para

— Brad Gilbert

2

O exemplo está errado! Veja a resposta do @ CesarB - para a maioria dos valores, aumentar é bom! Então, se era 42 uma hora atrás, e agora é 47 - ótimo. Mas não o contrário.

— Volker Siegel

6

Um valor alto para esse atributo é realmente muito bom:

O parâmetro SMART recuperado pelo ECC do hardware indica o tempo entre os erros corrigidos pelo ECC.

https://kb.acronis.com/content/9131

— Robert Klemme
fonte

2

Adicionado o que eu acredito ser a citação central.

— Robert Klemme

Isso faz sentido agora, mesmo que o recurso vinculado desapareça. Obrigado Robert.

— pintos

4

Primeiro, valores mais baixos são piores para o SMART, e não valores mais altos (observe como a coluna de limite é sempre menor que o valor atual). Portanto, um aumento de valor não é motivo de preocupação. (Esta regra não se aplica aos valores brutos, no entanto.)

Os valores SMART tendem a oscilar um pouco (o seu pode estar entre 46 e 47, por exemplo, portanto, mesmo pequenas alterações podem fazer com que ele mude para outro valor).

Sua smartctl -asaída mostra que o pior valor foi 45, portanto oscilando um pouco acima do normal.

Para obter mais informações, consulte os atributos Wikipedia: ATA SMART .

— CesarB
fonte

3

Lembre-se de que mesmo o extenso estudo realizado pelo Google constatou que um grande número de falhas na unidade não foi previsto por erros SMART. É possível que o que você vê seja perfeitamente normal, mas como cada fabricante possui métricas diferentes para converter os valores brutos nos valores relatados, é difícil dizer com certeza se sua unidade está enfrentando muitos erros ou não. No entanto, um número bruto tão grande me parece estranho.

Eu recomendaria ler toda a unidade (dd ou rsync'ing para uma nova unidade) e verificar os valores SMART à medida que avança. Se você vir esse número bruto ou os valores relatados, mude bastante. Eu começaria a procurar substituir a unidade.

— jasonrm
fonte

Hã. Seria muito legal fazer o ZFS rastrear os atributos SMART em relação aos seus próprios padrões de uso.

— i336_ 6/10/19

1

Nada de errado com isso.

Você sempre pode correr

smartctl -t long /dev/yourdrive

Depois de algumas horas, consulte o resultado

smartctl -a /dev/yourdrive

só pra ter certeza.

— cstamas
fonte

1

O ECRC de hardware do IIRC recuperado é a correção de erros nas leituras do disco, o que não é incomum para um disco, e eles codificam os dados com mecanismos de correção de erros exatamente por esse motivo. Alguns controladores também oferecem suporte a informações redundantes nos setores do disco e adicionam outra camada de correção de erros.

Como Dave Cheney afirma, os números devem ser monitorados ao longo do tempo. Mudanças radicais nessas estatísticas são uma indicação de falha na unidade. Além disso, fique de olho nas listas de defeitos aumentados - se a lista de defeitos aumentados começar a aumentar ou as estatísticas SMART começarem a mudar significativamente, você deverá substituir a unidade profilaticamente.

— ConcernedOfTunbridgeWells
fonte

11

lol, profilaticamente

— Dave Cheney

Devo me preocupar com um alto valor SMART Hardware_ECC_Recovered?