Eu tenho um novo sistema HP ProLiant DL360 G7 que está apresentando um problema difícil de reproduzir. O servidor aleatoriamente trava no " Poder e calibração térmica em andamento ... " tela durante o processo POST . Isso geralmente ocorre após uma inicialização a quente / reinicialização do sistema operacional instalado.
O sistema trava indefinidamente neste momento. A emissão de uma redefinição ou inicialização a frio através dos controles de energia da OIT 3 faz com que o sistema inicialize normalmente sem incidentes.
Quando o sistema está nesse estado, a interface da OIT 3 fica totalmente acessível e todos os indicadores de integridade do sistema ficam bem (todos verdes). O servidor está em um data center controlado por clima com conexões de energia à PDU. A temperatura ambiente é de 64 ° F / 17 ° C. O sistema foi colocado em um loop de teste de componente de 24 horas antes da implantação, sem falhas.
O sistema operacional principal desse servidor é o VMWare ESXi 5. Inicialmente, tentamos a versão 5.0 e posterior a versão 5.1. Ambos foram implantados via inicialização PXE e kickstart. Além disso, estamos testando com instalações baremetal do Windows e Red Hat Linux.
Os sistemas HP ProLiant possuem um conjunto abrangente de opções de BIOS. Tentamos as configurações padrão, além do perfil estático de alto desempenho. Desativei a tela inicial da inicialização e recebo um cursor piscando nesse ponto em relação à captura de tela acima. Também tentamos algumas "práticas recomendadas" do VMWare para a configuração do BIOS . Vimos um comunicado da HP que parece esboçar um problema semelhante , mas não corrigiu nosso problema específico.
Suspeitando de um problema de hardware, pedi ao fornecedor que enviasse um sistema idêntico para entrega no mesmo dia. O novo servidor era uma compilação totalmente idêntica, com exceção dos discos. Movemos os discos do servidor antigo para o novo. Ocorreu o mesmo problema de inicialização aleatória no hardware de substituição.
Agora tenho dois servidores rodando em paralelo. O problema ocorre aleatoriamente em botas quentes. Botas frias não parecem ter o problema. Estou analisando algumas das configurações mais esotéricas do BIOS, como desativar o Turbo Boost ou desativar totalmente a função de calibração de energia. Eu poderia tentar isso, mas eles não deveriam ser necessários.
Alguma ideia?
--editar--
Detalhes do sistema:
- DL360 G7 - 2 x CPUs X5670 de núcleo sextavado
- 96 GB de RAM (DIMMs de baixa tensão de 12 x 8 GB)
- 2 x discos rígidos SAS de 146 GB e 15k
- 2 fontes de alimentação redundantes de 750W
Todo o firmware atualizado a partir da versão mais recente do HP Service Pack for ProLiant DVD.
Ligando para a HP e rastreando a interwebz, vi menções a uma interação ruim da OIT 3, mas isso também acontece com o servidor em um console físico. A HP também sugeriu uma fonte de energia, mas isso está em um rack de data center que alimenta com sucesso outros sistemas de produção.
Existe alguma chance de que essa interação entre os DIMMs de baixa tensão e as fontes de alimentação de 750W seja ruim? Este servidor deve ser uma configuração suportada.