Então, vou fazer outra pergunta:
Por que é necessário executar o diagnóstico de hardware do HP Insight nos servidores antes do provisionamento?
No meu comentário acima, indiquei que há pouco a ganhar fazendo isso preventivamente em grandes ambientes HP ProLiant. Eu deveria esclarecer meus pensamentos sobre isso ...
Em ordem decrescente de frequência, vamos examinar os tipos de problemas que você normalmente encontrará:
Matriz e discos de armazenamento : o controlador RAID reportará ao sistema operacional, logs, SNMP, email, OIT e acenderá luzes bonitas para indicar a integridade.
RAM : o processo POST detectará o status da RAM, bem como o sistema que reporta ao sistema operacional, logs, SNMP, email, OIT e acende um indicador de LED no SID (Systems Insight Display) do painel frontal . Além disso, não sou fã de processos de queima de RAM porque a detecção de erros desses sistemas já é robusta.
Térmica e ventiladores : a temperatura do servidor e a velocidade do ventilador são reguladas pela OIT. Existem mais de 30 sensores de temperatura nesses sistemas , portanto o sistema de refrigeração é extremamente eficiente. Isso ainda reporta ao sistema operacional, logs, SNMP, email e no SID.
Fonte de alimentação : o status da PSU é relatado ao sistema operacional, logs, SNMP, email e no SID, além de uma luz indicadora real na unidade de fonte de alimentação real.
Saúde geral : é fácil avaliar de imediato com a tela do SID, além do LED Internal Health e External Health. Isso também é relatado nos logs do servidor, SNMP, email e OIT.
Não consigo pensar em nenhuma condição encontrada antes da implantação que não seria / não pôde ser relatada durante o tempo de execução ou após a instalação do SO.
O ciclo de diagnóstico geralmente não encontra nada quando executado em um sistema sem problemas anteriores óbvios. Isso ocorre principalmente porque o servidor precisa fazer o POST e inicializar no utilitário ou no firmware do Intelligent Provisioning para executar o utilitário.
Em outras palavras, qualquer item que seria um "SPOF" sério para o servidor provavelmente impediria o sistema de executar seu autodiagnóstico.
Os itens de falha mais comuns ainda são bastante robustos; os discos devem estar em RAID e podem ser trocados a quente. Os ventiladores e fontes de alimentação também podem ser trocados a quente. Sua RAM possui limites de ECC e existem opções on-line para a maioria das plataformas ProLiant. Não há nada que você possa fazer para induzir falhas nesses componentes executando diagnósticos. Adicione o fato de que você está usando gabinetes HP C7000 Blade, que possuem redundâncias internas , e sua incidência de falhas deve ser bem baixa.