O ponto dos atributos atuais / piores, como temperatura, é exatamente o seguinte: para informar se o inversor já esteve fora da temperatura máxima de operação e, portanto, pode ter sofrido danos permanentes.
É por isso que diz "falhou no passado", não "falhou agora": você apenas tocou no limite de temperatura máxima. Observe que a exibição do atributo mostra "normalizado: 50, limite: 45, pior: 45". (Esses são valores normalizados de 0..200, como para qualquer outro atributo, não temps Celsius brutos.)
Você também possui alguns setores defeituosos (erros incorretos do setor); portanto, se a breve alta temperatura causou isso ou não, provavelmente é hora de abandonar a unidade.
Uma interface do usuário do software SMART melhor mostraria a temperatura atual e máxima de sempre . por exemplo,
smartctl -a /dev/sda
ou smartctl -x /dev/sda
( -x
imprime todos os dados SMART e não SMART disponíveis que podem ser obtidos da unidade, incluindo um registro do histórico de temperatura, se a unidade tiver um, com um gráfico de barras ASCII.)
O smartctl -x inclui isso para um disco rígido WD Green de 1TB (WD10EADS) antigo:
Current Temperature: 36 Celsius
Power Cycle Min/Max Temperature: 25/42 Celsius
Lifetime Min/Max Temperature: 35/46 Celsius
O software que você está usando parece apenas mostrar a temperatura atual, que está um pouco abaixo do limite, mas não oculta o fato de que a unidade estava fora de especificação em algum momento no passado.
Você certamente poderia justificar ignorar a alta temperatura momentânea, se realmente a corrigisse em minutos. Mas você nunca (ou não deveria) conseguir fazer a própria unidade mentir sobre o fato de estar acima da temperatura máxima nominal por algum tempo e, portanto, o atributo falhou no passado.
Você pode configurar smartd
para ignorar qualquer atributo, para que você ainda possa receber uma notificação útil se qualquer outra coisa ultrapassar um limite em território com falha oficial. : smartd.conf(5)
diz:
-i ID [ATA only]
Ignore o ID do número de atributo do dispositivo ao verificar a falha dos Atributos de Uso. O ID deve ser um número inteiro decimal no intervalo de 1 a 255. Esta diretiva modifica o comportamento da diretiva '-f' e não tem efeito sem ele.
Isso é útil, por exemplo, se você tiver um disco muito antigo e não quiser continuar recebendo mensagens sobre a falha do Atributo com horas de duração (geralmente, Atributo 9). Esta diretiva pode aparecer várias vezes para um único dispositivo, se você deseja ignorar vários atributos.
Atributos estendidos de histórico de temperatura
Acabei de adquirir um novo Seagate Barracuda de 6 TB (firmware ST6000DM003-2CY186 0001, uma unidade de 5425 RPM), que possui algumas estatísticas interessantes, incluindo tempo gasto excedendo pontos de operação mínimos / máximos e alto / baixo de temperaturas temporárias de curto e longo prazo .
SCT Status Version: 3
SCT Version (vendor specific): 522 (0x020a)
Device State: Active (0)
Current Temperature: 33 Celsius
Power Cycle Min/Max Temperature: 27/33 Celsius
Lifetime Min/Max Temperature: 27/33 Celsius
Under/Over Temperature Limit Count: 0/0
SCT Temperature History Version: 2
Temperature Sampling Period: 3 minutes
Temperature Logging Interval: 59 minutes
Min/Max recommended Temperature: 14/55 Celsius
Min/Max Temperature Limit: 10/60 Celsius
Temperature History Size (Index): 128 (2)
E na seção de detalhes completos:
0x05 ===== = = === == Temperature Statistics (rev 1) ==
0x05 0x008 1 33 --- Current Temperature
0x05 0x010 1 - --- Average Short Term Temperature
0x05 0x018 1 - --- Average Long Term Temperature
0x05 0x020 1 33 --- Highest Temperature
0x05 0x028 1 30 --- Lowest Temperature
0x05 0x030 1 - --- Highest Average Short Term Temperature
0x05 0x038 1 - --- Lowest Average Short Term Temperature
0x05 0x040 1 - --- Highest Average Long Term Temperature
0x05 0x048 1 - --- Lowest Average Long Term Temperature
0x05 0x050 4 0 --- Time in Over-Temperature
0x05 0x058 1 55 --- Specified Maximum Operating Temperature
0x05 0x060 4 0 --- Time in Under-Temperature
0x05 0x068 1 13 --- Specified Minimum Operating Temperature
(A unidade só foi ligada por alguns minutos; provavelmente é por isso que não -
há dados em alguns campos).
Se você dirigir esses atributos estendidos, poderá mostrar a alguém que o tempo gasto fora da temperatura permitida foi muito curto (se for esse o caso). Presumivelmente, se você modificasse os dados SMART, teria feito isso e removido qualquer menção de estar fora de alcance, mas obviamente você não pode confiar 100% em nenhum dado de um drive de segunda mão que alguém está tentando vender você.
Consulte /superuser/1389522/what-does-it-mean-when-my-new-hdd-reports-errors-at-a-time-that-shouldnt-exist para obter mais informações sobre unidades usadas com "reversão do odômetro" no atributo "Power_On_Hours", por exemplo.