O HP ProLiant DL360 G7 trava na tela "Calibração de energia e térmica"


41

Eu tenho um novo sistema HP ProLiant DL360 G7 que está apresentando um problema difícil de reproduzir. O servidor aleatoriamente trava no " Poder e calibração térmica em andamento ... " tela durante o processo POST . Isso geralmente ocorre após uma inicialização a quente / reinicialização do sistema operacional instalado.

insira a descrição da imagem aqui

O sistema trava indefinidamente neste momento. A emissão de uma redefinição ou inicialização a frio através dos controles de energia da OIT 3 faz com que o sistema inicialize normalmente sem incidentes.

Quando o sistema está nesse estado, a interface da OIT 3 fica totalmente acessível e todos os indicadores de integridade do sistema ficam bem (todos verdes). O servidor está em um data center controlado por clima com conexões de energia à PDU. A temperatura ambiente é de 64 ° F / 17 ° C. O sistema foi colocado em um loop de teste de componente de 24 horas antes da implantação, sem falhas.

O sistema operacional principal desse servidor é o VMWare ESXi 5. Inicialmente, tentamos a versão 5.0 e posterior a versão 5.1. Ambos foram implantados via inicialização PXE e kickstart. Além disso, estamos testando com instalações baremetal do Windows e Red Hat Linux.

Os sistemas HP ProLiant possuem um conjunto abrangente de opções de BIOS. Tentamos as configurações padrão, além do perfil estático de alto desempenho. Desativei a tela inicial da inicialização e recebo um cursor piscando nesse ponto em relação à captura de tela acima. Também tentamos algumas "práticas recomendadas" do VMWare para a configuração do BIOS . Vimos um comunicado da HP que parece esboçar um problema semelhante , mas não corrigiu nosso problema específico.

Suspeitando de um problema de hardware, pedi ao fornecedor que enviasse um sistema idêntico para entrega no mesmo dia. O novo servidor era uma compilação totalmente idêntica, com exceção dos discos. Movemos os discos do servidor antigo para o novo. Ocorreu o mesmo problema de inicialização aleatória no hardware de substituição.

Agora tenho dois servidores rodando em paralelo. O problema ocorre aleatoriamente em botas quentes. Botas frias não parecem ter o problema. Estou analisando algumas das configurações mais esotéricas do BIOS, como desativar o Turbo Boost ou desativar totalmente a função de calibração de energia. Eu poderia tentar isso, mas eles não deveriam ser necessários.

Alguma ideia?

--editar--

Detalhes do sistema:

  • DL360 G7 - 2 x CPUs X5670 de núcleo sextavado
  • 96 GB de RAM (DIMMs de baixa tensão de 12 x 8 GB)
  • 2 x discos rígidos SAS de 146 GB e 15k
  • 2 fontes de alimentação redundantes de 750W

Todo o firmware atualizado a partir da versão mais recente do HP Service Pack for ProLiant DVD.

Ligando para a HP e rastreando a interwebz, vi menções a uma interação ruim da OIT 3, mas isso também acontece com o servidor em um console físico. A HP também sugeriu uma fonte de energia, mas isso está em um rack de data center que alimenta com sucesso outros sistemas de produção.

Existe alguma chance de que essa interação entre os DIMMs de baixa tensão e as fontes de alimentação de 750W seja ruim? Este servidor deve ser uma configuração suportada.


2
Alguma maneira de eliminar os discos como uma possível causa? Alguma chance de testar com alguns discos SAS ou SATA alternativos?
ErnieTheGeek

Sim, testado com um conjunto de discos em bom estado no segundo sistema. Eles estão correndo em paralelo.
ewwhite

1
A única vez que vi isso foi em um sistema (também um DL360 G7) em que estava tentando usar um cartão que não era da HP para fornecer armazenamento. Quando eu tinha o cartão SmartArray e outro aqui, ele fez isso. Quando eu tirei, passou. Este não é o seu problema, mas repito o que encontrei.
sysadmin1138

1
Possivelmente algo relacionado à rede? Tente duplicar sem estar conectado à rede.
precisa saber é o seguinte

1
@TheCleaner A desativação do Dynamic Power Capping não é uma opção nos servidores G7. Foi introduzido para a série Gen8 ProLiant.
EJrite

Respostas:


43

Então, depois de incluir um terceiro sistema e experimentar o mesmo problema, começamos a questionar o meio ambiente. Eu cavei uma cópia do Guia de solução de problemas dos servidores HP ProLiant e encontrei o fluxograma de problemas do POST mostrado abaixo.

insira a descrição da imagem aqui

Examinando cuidadosamente as etapas do gráfico, percebemos que a constante em todos os servidores era um comutador KVM conectado ao carrinho de falha do datacenter. Este era um KVM habilitado para USB da classe de consumidor. De acordo com o nó destacado no fluxograma, você conhece o KVM bom? , Não pude responder conclusivamente.

Portanto, desconectamos os servidores do comutador KVM e executamos uma inicialização automatizada, sleep 300; rebootsequência rc.local. Os servidores não tiveram problemas com isso, independentemente do DIMM normal, DIMMs de baixa tensão, potência da PSU etc.

Tudo isso foi resultado de uma interação ruim com um comutador KVM USB. Por ser esse o console, garantimos que veríamos o fracasso se o procurássemos. Auto-realizável ...


2
Uau, essa é boa! Que bom que você falou isso.
Nedm

7
Santo corvo. +1 para questionar e responder. Bom trabalho; Eu provavelmente teria esquecido isso. "Conhecido bom"? Claro que é conhecido - está funcionando, não está?
precisa saber é

Muito obrigado!!! definitivamente era a KVM. Apenas desconecte o vídeo e conecte o monitor diretamente e o servidor funcionará sem problemas novamente. Após o carregamento do SO, conectei o KVM de volta. Acho que o problema foi causado quando toquei acidentalmente os cabos na parte traseira do servidor. O sistema parou e só reage a este aviso.

1
Alguma idéia de como uma KVM causaria isso?
TheLQ

@TheLQ Um dispositivo KVM barato no nível do consumidor foi a causa aqui. Também pode ter havido um problema com o teclado.
ewwhite
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.