Qual é o limite de temperatura seguro para um disco rígido SATA de consumidor?


16

fundo

Meu sistema de desktop pessoal em casa possui 5 unidades SATA montadas no interior. Recentemente, meu sistema começou a falhar de maneiras estranhas, como pânico aleatório no kernel, e eu finalmente o localizei para degradações aleatórias na matriz RAID. Às vezes eu conseguia inicializar, outras vezes não e assim por diante. Depois de perseguir os problemas do software por um tempo, finalmente fui puxar os discos e descobri o verdadeiro motivo pelo qual eles estavam falhando: eles eram mais quentes do que um churrasco no dia 4 de julho! A ventoinha do gabinete dianteiro estava presa e o ventilador PS tinha um conector de energia solto preso em sua grade, de modo que o interior do gabinete estava cozinhando.

Como espera, encontrei um ventilador doméstico e esfriei aquele otário. Funcionou muito bem com tudo de bom e descontraído. Nesse período, aprendi como obter as leituras de temperatura da unidade com o SMART

for i in a b c d e; do
    sudo smartctl --all /dev/sd$i | grep Temperature_Celsius
done

Agora eu sei que, com o meu gabinete, abri um ventilador doméstico limpando permanentemente as teias de aranha que as unidades correm entre 31 e 32 °. Um teste rápido sem ventilação para replicar o estado de falha mostra que as unidades atingiram os 40 anos rapidamente. Eu não sei o quão ruim foi durante a falha real ou há quanto tempo é assim.

Com isso em mente, substituí as ventoinhas defeituosas, adicionei mais algumas, atualizei a frontal soprando as unidades de 80 a 120 mm e fechei-a novamente. Com ele de pé na vertical novamente, a faixa de temperatura agora está geralmente em 32 ° na parte inferior do aparelho e 37 ° na parte superior.

A questão

Qual é a faixa geral de temperatura operacional segura para drives SATA? 37 ° deve ser uma preocupação ou o dano ao inversor não é um problema até depois de um certo ponto?

Embora as unidades pareçam ter um bom desempenho agora, qual a probabilidade de exposição ao calor no passado para torná-las propensas a falhas agora?


Uma das coisas que notei, especialmente com as unidades mais recentes de coolers de tecnologia, é muito mais quente quando em uso intenso. Enquanto meus greens (por exemplo) são praticamente frios a maior parte do tempo em que estou lá olhando / tocando, eles ainda ficam bem aquecidos quando estão trabalhando duro. A mesma coisa com os chips da controladora Sata. Suuuure, a controladora Intel não precisa da grande sincronização passiva que adicionei a ela, até testá-la quando estiver realmente trabalhando duro. Estou dizendo que os testes (ao olhar) raramente representam a realidade quando as coisas acontecem. Tudo o resto foi dito, eles podem facilmente trabalhar 50 * C
Psycogeek

Respostas:


25

37 graus não deve ser um problema. Naturalmente, os discos rígidos diferem em suas especificações, alguns podem ficar mais quentes que os outros. Você deve verificar as especificações publicadas das unidades que possui. Por exemplo, a temperatura operacional WD Caviar Black de 1 TB é de -0 ° C a 60 ° C. É claro que você não deseja que sua unidade funcione 60 °, pois isso pode reduzir sua vida útil.

O Google publicou um estudo muito interessante (PDF) sobre a saúde e a vida útil do disco rígido, com base nos dados coletados em seus sistemas (muitos milhares de discos rígidos). Esse estudo diz que:

No geral, nossos experimentos podem confirmar os efeitos de temperatura relatados anteriormente apenas para o nível mais alto de nossa faixa de temperatura e especialmente para unidades mais antigas. Nas faixas de temperatura mais baixa e média, temperaturas mais altas não estão associadas a taxas de falha mais altas. Esse é um resultado bastante surpreendente, o que pode indicar que os designers de datacenters ou servidores têm mais liberdade do que se pensava ao definir temperaturas operacionais para equipamentos que contêm unidades de disco.

O gráfico mostra que a taxa de falha não aumenta até que a temperatura da unidade ultrapasse 45 graus.


3

Essa é apenas minha experiência pessoal limitada, mas eu executei algumas unidades no 40C superior sem problemas por 2 a 3 anos, desde que eu estava usando um gabinete silencioso (resfriado por um pequeno ventilador para evitar atingir 50C). Nessas temperaturas, eu assumiria uma vida útil mais curta e morte rápida, em vez de corrupção aleatória de dados, mas poderia estar errado. De qualquer forma, qualquer coisa abaixo de 40C-42C está bem.

Mas não subestime outros fatores que provavelmente desempenharão um papel na corrupção de dados:

1) A ponte sul que abriga o chipset do controlador IDE / RAID geralmente é resfriada apenas por um pequeno dissipador de calor. Eles tendem a esquentar em condições normais, portanto, um aumento na temperatura ambiente devido à falta de fluxo de ar do gabinete e muitos HDDs podem causar plausivelmente danos aos dados.

2) O superaquecimento da RAM ou da CPU é um culpado comum de erros de memória CRC, que se traduz em corrupção de dados. O monitoramento da temperatura da CPU e a execução de testes de memória são essenciais quando confrontados com corrupção de dados.

Se seus indicadores SMART atuais estiverem corretos e não mostrarem contagens incorretas de setor, consideraria as unidades seguras para uso.


0

A publicação inicial afirmou que o usuário não sabia o quão quente suas unidades haviam ficado - alguns discos registram esse parâmetro e é acessível através das informações SMART. O disco rígido sentinal é uma peça de software que informa isso como temperatura máxima durante toda a vida útil.

Vi resultados de unidades Maxstor, WD e Seagate

Algumas das minhas unidades USB externas que eu uso para backup mostram temperaturas máximas de 63 e 64 ° C, respectivamente! Eu criei um cooler para a unidade externa


0

Li o relatório mencionado acima e verifique os intervalos de temperatura operacional dos discos rígidos Samsung, WD e Hitachi. Com base em pesquisas, concluí que as unidades que operam de 30 a 45 graus oferecem a menor probabilidade de falha; Uma alta temperatura SMART de até 55 graus não é motivo de preocupação; e que temperaturas de pico acima de 60 graus indicariam uma expectativa de vida útil reduzida da unidade.

Meus próprios testes indicam que é esperado um aumento de até 10 graus durante períodos de acesso intenso.

Parece haver algum fator desconhecido no trabalho que está causando taxas de falha anormais em unidades externas. Embora o calor pareça fazer parte do problema, não é a resposta completa. Eu aconselho todos os usuários de unidades externas a monitorar de perto as temperaturas sempre que houver uma alteração na natureza do uso ou no ambiente das unidades. Este parece ser um problema "desconhecido" (não usual) que leva a essas unidades sobreaquecer inesperadamente.

Atualmente, estou rejeitando a explicação de vírus de computador, ignorância do usuário, protocolos USB ruins e a localização das unidades em um local inadequado.


2
Bem-vinda. O objetivo deste site é compilar perguntas e respostas de alta qualidade nas quais as pessoas possam confiar para referência. Algumas coisas na sua resposta podem fazer os leitores se perguntarem. Você discute pesquisas e testes. Se isso for publicado, seria valioso citar isso. Seu uso da palavra "desconhecido" levanta uma questão sobre suas qualificações. Ajudaria a descrever quais fatores conhecidos você descartou e quais problemas "comuns" causam superaquecimento. Descreva seus testes e quantas unidades você baseia sua conclusão para que as pessoas possam entender o escopo.
fixer1234
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.