Após uma inicialização a frio de um servidor Debian 6.0.8 (HP ProLiant), ntpd
causou estragos no horário do sistema: offset e jitter com relação aos servidores de horário de referência usuais e confiáveis que crescem sem limite. (Observe que um servidor idêntico duplo não teve nenhum problema.) Depois de muitas tentativas malsucedidas de corrigir o problema do ntpd
lado, decidi tentar uma reinicialização e tudo deu certo.
Para investigar o problema, encontrei essa discrepância, o que poderia explicar meus problemas com o relógio:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
Observe que na segunda última inicialização (a problemática) a frequência da CPU detectada é claramente clara. Sem o outlier, o erro e o desvio padrão da frequência detectada em relação à nominal são de +0,15 MHz ± 0,25 MHz. Para a inicialização problemática, tenho um erro de -16,4 Mhz, que é cerca de 100 vezes maior que o esperado.
Minhas perguntas:
Um erro desse tipo pode tornar a
ntp
disciplina do tempo instável / inutilizável? É este o motivo dos meus problemas com o relógio?Esse tipo de comportamento é um sintoma de hardware inadequado? O servidor deve entrar em manutenção hw?
Atualizar
Alguns dados úteis:
- O kernel é 2.6.32-5-amd64 (Debian 2.6.32-48squeeze4)
current_clocksource
étsc
- erro para
lpj
(é claro) é consistente com erro na freqüência da CPU
Algumas linhas de contexto para o acima grep
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
ntpdc -c loopinfo
nunca me deu um valor de desvio de frequência. Agora, após a reinicialização, tudo parece estar em ordem, com um valor de desvio estável ... BTW, sua sugestão está correta, estou monitorandolog/loopstats
um comportamento anormal.