Temos um servidor linux que está em uso pesado há 3 anos. Estamos executando vários servidores virtualizados, alguns que não foram bem comportados e, por um tempo significativo, a capacidade io do servidor foi excedida, resultando em problemas de iowait. Possui 4 unidades Barracuda sata de 500GB conectadas a um controlador de ataque da 3com. 1 O drive possui o sistema operacional e os outros 3 estão configurados como RAID-5.
Agora temos um debate sobre a condição das unidades e se elas estão falhando ativamente.
Aqui está uma parte da saída para 1 dos 4 discos. Todos eles têm estatísticas relativamente semelhantes:
Número de revisão da estrutura de dados dos atributos SMART: 10 Atributos SMART específicos do fornecedor com limites: ID # ATTRIBUTE_NAME VALUE O MAIOR VALOR DE TIPO DE TERRA ATUALIZADO WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 118 099 006 Pré-falha Sempre - 169074425 3 Spin_Up_Time 0x0003 095 092 000 Pré-falha Sempre - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 26 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pré-falha Sempre - 0 7 Seek_Error_Rate 0x000f 077 060 030 Pré-falha Sempre - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 27856 10 Spin_Retry_Count 0x0013 100 100 097 Pré-falha Sempre - 1 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 26 184 Atributo desconhecido 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 1 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Lifetime Min / Max 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 21 0 0) 195 Hardware_ECC_Recuperado 0x001a 046 033 000 Old_age Always - 169074425 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Off-line_Incorrigível 0x0010 100 100 000 Old_age Off-line - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 Versão do log de erros SMART: 1 Nenhum erro registrado
Minha interpretação disso é que não tivemos setores defeituosos ou outras indicações de que alguma das unidades esteja falhando ativamente.
No entanto, os altos Raw_Read_Error_Rate e Seek_Error_Rate estão sendo apontados como indicações de que as unidades estão morrendo.