O consenso geral parece ser que a resposta para sua pergunta vem em duas partes:
Como podemos encontrar a fonte do cheiro ardente engraçado?
Você tem o "Como" muito bem pregado:
- O "Sniff Test"
- Procure fumaça visível / neblina
- Caminhe pela sala com uma câmera térmica (IR) para encontrar pontos quentes
- Verifique os painéis de monitoramento e dispositivo para alertas
Você pode melhorar suas chances de encontrar o problema rapidamente de várias maneiras - o monitoramento aprimorado é geralmente o mais fácil. Algumas perguntas a serem feitas:
- Você recebe alertas de temperatura e outros alertas de saúde do seu equipamento?
- Seus sistemas UPS relatam falhas no seu sistema de monitoramento?
- Você recebe alarmes de consumo de corrente do seu equipamento de distribuição de energia?
- Os detectores de fumaça da sala estão se reportando ao sistema de monitoramento? (e eles podem? )
Quando devemos solucionar problemas em vez de pressionar o Big Red Switch?
Esta é uma pergunta mais interessante.
Ativar o grande interruptor vermelho pode custar à sua empresa uma quantia enorme de dinheiro às pressas: as liberações de agentes limpos podem chegar a dezenas de milhares de dólares, e os custos de interrupção / recuperação após um desligamento de emergência (EPO, "abandonar a sala") ) pode ser devastador.
Você não deseja descartar um datacenter porque um capacitor em uma fonte de alimentação estalou e fez a sala cheirar.
Por outro lado, um incêndio em uma sala de servidores pode custar à sua empresa seus dados / equipamentos e, mais importante, a vida de sua equipe.
A solução de problemas "aquele cheiro engraçado de queimadura" nunca deve ter precedência sobre a segurança , por isso é importante ter algumas regras claras sobre a solução de problemas de "pré-incêndio".
As diretrizes a seguir são minhas limitações pessoais que aplico na ausência de (ou além de) qualquer outro procedimento / regras claramente definidos - eles me serviram bem e podem ajudá-lo, mas poderiam facilmente me matar ou despedido amanhã, aplique-o por sua conta e risco.
Se você
vir fumaça ou fogo, abandone a sala. Isso não é preciso dizer, mas vamos dizer assim mesmo: se houver fogo ativo (ou fumaça indicando que em breve haverá), você evacua a sala, corta a energia e apaga o fogo. sistema de supressão.
Podem existir exceções (exercite algum senso comum), mas essa é quase sempre a ação correta.
Se você estiver solucionando problemas, sempre tenha pelo menos uma outra pessoa envolvida.
Isso ocorre por dois motivos. Primeiro, você não quer ficar andando em um datacenter e, de repente, tem um rack subindo na fila que você está andando e ninguém sabe que você está lá. Segundo, a outra pessoa é a sua verificação de sanidade na solução de problemas em vez de deixar a sala e, se você ligar para o Big Red Switch, terá o benefício de ter uma segunda pessoa que concorda com a decisão (ajuda a evitar os aspectos limitadores da carreira) de tal decisão se alguém a questionar mais tarde).
Exercite medidas de segurança prudentes durante a solução de problemas
Certifique-se de sempre ter um caminho de fuga (uma extremidade aberta de uma linha e um caminho livre para uma saída).
Mantenha alguém estacionado na liberação do EPO / combate a incêndio.
Leve consigo um extintor de incêndio (Halon ou outro agente de limpeza, por favor).
Lembre-se da regra nº 1 acima.
Em caso de dúvida, saia da sala . Cuide da sua respiração: use um respirador ou uma máscara de oxigênio. Isso pode salvar sua saúde em caso de incêndio químico.
Defina um limite e atenha-o com
mais precisão, defina dois limites:
- Condição ("Quanto pior vou deixar isso acontecer?") E
- Tempo ("Por quanto tempo vou continuar tentando encontrar o problema antes que seja muito arriscado?").
Os limites definidos por você também pode ser usado para permitir que sua equipe começam um desligamento ordenado da área afetada, então quando você FAZER puxar poder você não está batendo um monte de máquinas ativas, e seu tempo de recuperação será muito mais curto, mas lembre-se que se o desligamento ordenado estiver demorando muito, talvez seja necessário deixar alguns sistemas travarem em nome da segurança.
Confie em seu instinto
Se você estiver preocupado com a segurança a qualquer momento, desligue a solução de problemas e limpe a sala.
Você pode ou não deixar a sala com base em um pressentimento, mas se reagrupar fora da sala em segurança (relativa) é prudente.
Se não houver perigo iminente, você pode optar por trazer o corpo de bombeiros local antes de tomar quaisquer ações drásticas como uma liberação de EPO ou agente de limpeza. (Eles podem pedir para você fazer isso de qualquer maneira: o mandato deles é proteger as pessoas e, em seguida, a propriedade, mas eles são obviamente os especialistas em lidar com incêndios, então você deve fazer o que eles dizem!)
Abordamos isso nos comentários, mas também pode ser resumido em uma resposta - @DeerHunter, @Chris, @Sirex e muitos outros contribuíram para a discussão