Avaliação de danos ao equipamento após um relâmpago

56

Um dos sites de meu cliente recebeu um raio direto na semana passada (coincidentemente na sexta - feira 13 ) !

Eu era remoto para o site, mas, trabalhando com alguém no local, descobri um padrão estranho de dano. Ambos os links da Internet estavam inoperantes, a maioria dos servidores estava inacessível. Grande parte dos danos ocorreu no MDF , mas um IDF conectado à fibra também perdeu 90% das portas em um membro da pilha de comutadores. Havia portas de comutação sobressalentes suficientes para redistribuir o cabeamento em outro lugar e reprogramar, mas houve um tempo de inatividade enquanto perseguíamos os dispositivos afetados.

Era uma nova instalação de construção / armazenamento e muito planejamento foi feito no design da sala do servidor. A sala principal do servidor é gerida por um no -break on-line de dupla conversão APC SmartUPS RT 8000VA , apoiado por um gerador. Havia distribuição de energia adequada para todos os equipamentos conectados. Replicação de dados externos e backups de sistemas estavam em vigor.

Ao todo, o dano (que eu sei) foi:

Placa de linha com 48 portas com falha em um comutador de chassi Cisco 4507R-E .
~~Switch Cisco 2960 com falha em uma pilha de 4 membros.~~ (opa ... cabo de empilhamento solto)
Várias portas escamosas em um switch Cisco 2960.
Placa-mãe e fonte de alimentação HP ProLiant DL360 G7.
Elfiq WAN link balancer.
Um fax modem Multitech.
Antena de Internet WiMax / fixo-sem fio e injetor de energia.
Inúmeros dispositivos conectados a PoE (telefones VoIP, pontos de acesso Cisco Aironet, câmeras de segurança IP)

A maioria dos problemas estava relacionada à perda de um blade de switch inteiro no Cisco 4507R-E. Isso continha parte da rede VMware NFS e a ligação ao firewall do site. Um host VMWare falhou, mas a HA cuidou da VM depois que a conectividade da rede de armazenamento foi restaurada. Fui forçado a reiniciar / ligar / desligar vários dispositivos para limpar os estados de energia descolados. Portanto, o tempo para a recuperação foi curto, mas estou curioso para saber quais lições devem ser aprendidas ...

Que proteções adicionais devem ser implementadas para proteger o equipamento no futuro?
Como devo abordar a garantia e a substituição? Cisco e HP estão substituindo itens sob contrato. O caro balanceador de links da WAN Elfiq tem uma sinopse em seu site que diz basicamente "muito ruim, use um protetor contra surtos de rede ". (parece que eles esperam esse tipo de falha)
Estou na TI há tempo suficiente para encontrar danos causados por tempestades elétricas no passado, mas com um impacto muito limitado; por exemplo, a interface de rede de um PC barato ou a destruição de mini switches.
Há mais alguma coisa que eu possa fazer para detectar equipamentos potencialmente escamosos ou simplesmente preciso esperar que um comportamento estranho apareça?
Tudo isso foi apenas azar ou algo que realmente deveria ser considerado na recuperação de desastres?

Com $$$ suficiente, é possível incorporar todos os tipos de redundâncias em um ambiente, mas qual é o equilíbrio razoável entre design preventivo / atencioso e uso eficaz dos recursos aqui?

— ewwhite
fonte

3

Algumas boas respostas técnicas abaixo, mas, na minha experiência, nada supera uma boa apólice de seguro. Literalmente, uma apólice de seguro. Claro, isso não ajuda a evitar o problema e não impede que os clientes gritem com você, mas ajuda a substituir o equipamento com falha no qual o fornecedor não tocará.

— Mark Henderson

O @MarkHenderson Insurance está chegando ... mas já se passaram 6 semanas e alguns pequenos problemas estão surgindo agora.

— ewwhite

23

Alguns empregos atrás, um dos datacenters do local em que eu trabalhava estava no andar abaixo de uma antena muito grande. Esse item grande e fino de metal era a coisa mais alta da região e era atingido por um raio a cada 18 meses. O datacenter em si foi construído por volta de 1980, então eu não chamaria isso de mais moderno, mas eles tinham uma longa experiência em lidar com danos causados por raios (as placas de comunicação serial precisavam ser substituídas todas as vezes , o que é um teste se as comunicações as placas estão em um sistema que não tem peças novas fabricadas há 10 anos).

Uma coisa que foi levantada pelas mãos antigas é que toda essa corrente espúria pode encontrar uma maneira de contornar qualquer coisa, e pode se espalhar em um terreno comum uma vez que se aproxima. E pode se unir a partir de intervalos de ar. O relâmpago é um caso excepcional, onde os padrões normais de segurança não são bons o suficiente para evitar arcos e vão tão longe quanto têm energia. E tem muito. Se houver energia suficiente, ele pode sair de uma grade de teto suspenso (talvez um dos fios da suspensão esteja pendurado de um laço com conexão a uma viga de construção no cimento) até o topo de um rack de 2 colunas e daí para o guloseimas em rede.

Como hackers, há muito o que você pode fazer. Todos os seus alimentadores de energia possuem disjuntores que prendem tensões espúrias, mas seu equipamento de rede de baixa tensão quase nunca funciona e representa um caminho comum para o roteamento de uma corrente extremamente energética.

Detectar um kit potencialmente escamoso é algo que sei fazer em teoria, mas não na realidade. Provavelmente, sua melhor aposta é colocar a engrenagem suspeita em uma área e, deliberadamente, elevar a temperatura na sala até a extremidade alta da faixa de operação e ver o que acontece. Execute alguns testes, carregue o pedaço fora dele. Deixe por alguns dias. O estresse térmico adicional sobre qualquer dano elétrico pré-existente pode eliminar algumas bombas-relógio.

Definitivamente, reduziu a vida útil de alguns de seus dispositivos, mas descobrir quais é difícil. Os circuitos de condicionamento de energia dentro das fontes de alimentação podem ter componentes comprometidos e fornecer energia suja ao servidor, algo que você só pode detectar através do uso de dispositivos especializados projetados para testar fontes de alimentação.

Relâmpagos não são algo que eu considerei para a DR, além de ter um CD em uma instalação com um pára-raios gigante no telhado . Genericamente, uma greve é uma daquelas coisas que acontecem tão raramente que são embaralhadas sob 'ato de deus' e seguidas adiante.

Mas ... você já teve um agora. Isso mostra que sua instalação teve as condições corretas pelo menos uma vez. É hora de fazer uma avaliação de quão propenso às suas instalações recebe as condições corretas e planejar adequadamente. Se você está pensando apenas nos impactos de raios do DR agora, acho que é apropriado.

— sysadmin1138
fonte

Eu fui no local ontem para avaliar. Bagunçado. Consertei o switch do chassi e verifiquei os danos de alguns servidores. Existe alguma chance de que a antena WiMax / Wireless-fixa no telhado seja o ponto de entrada? Tudo em seu caminho foi afetado:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard

— ewwhite 18/07/12

11

Isso parece ... bastante provável.

— Mllni

11

@whwhite Isso parece muito provável. O dano quando aquele velho CD foi atingido foi muito semelhante.

— sysadmin1138

Gostaria de acrescentar um pouco de sabedoria à postagem de sysadmin1138 (desculpe, ainda não tenho permissão para comentar, mas não queria que isso fosse uma resposta) ... Os pinos de aterramento nos cabos de alimentação são para segurança HUMANA, não para seus dispositivos. Em pequenos escritórios; Eu mantenho máquinas importantes fora do chão (caixa de madeira, tapete de borracha) e conectores / adaptadores não aterrados UPS-> Wall. Tenho certeza que a OSHA odeia, mas os computadores adoram. Também ajuda quando o cinto é desenergizado e reenergizado, pois essas ondas podem matar qualquer coisa. Estive em um prédio quando um UPS / Inversor Libert muito grande explodiu e tive que explicar aos técnicos como os picos indutivos (

— sirmonkey 27/17

8

Eu estive pensando sobre essa questão desde que ela foi editada recentemente no topo da primeira página.

Eu estipulo livremente que, para pessoas como sysadmin1138 que precisam lidar com instalações altamente atraentes para grandes descargas atmosféricas no telhado de DC, faz sentido o planejamento de contingência específico para uma grande greve. Mas para a maioria de nós, essa é uma circunstância pontual, e achei que uma resposta mais adequada para o resto de nós poderia ter algum valor.

É possível imaginar todos os tipos de ameaças à trama de filmes ; cenários que definitivamente poderiam acontecer, inquestionavelmente derrubariam suas operações de negócios, se o fizessem, mas que não há razão para pensar que haja uma probabilidade elevada de acontecer. Você sabe o tipo de coisa; o ataque de um avião / raio / depósito de petróleo nas proximidades explode / qualquer outro cenário plausível, mas com risco de fundo.

Cada uma delas possui um plano de mitigação específico que pode ser implementado, mas eu sugeriria que - modulo minha estipulação acima - não faz sentido comercial fazer isso . Como Schneier está tentando apontar na competição acima, apenas porque você pode imaginar algo terrível acontecendo não a torna uma ameaça contra a qual o planejamento específico vale a pena, ou mesmo é desejável. O que faz sentido para os negócios é um plano de continuidade de negócios testado, bem documentado e de uso geral.

Você deve se perguntar quais são os custos comerciais de uma perda completa do site por vários períodos de tempo (por exemplo, 24h, 96h, uma semana, um mês) e tentar quantificar a probabilidade de cada ocorrência. Deve ser uma análise honesta dos custos comerciais, incorporada por todos os níveis da empresa. Eu trabalhei em um local onde o valor geralmente aceito para o tempo de inatividade era de £ 5,5 milhões / hora (e isso foi há 20 anos, quando cinco milhões de libras eram muito dinheiro); ter esse número geralmente acordado tomou tantas decisões muito mais fáceis, porque elas se tornaram uma questão de matemática simples.

Seu orçamento é a perda projetada multiplicada pela chance anual dessa perda; Agora veja o que você pode fazer para atenuar essa ameaça no orçamento.

Em alguns casos, isso será executado em um data center em espera completo, com equipamento frio, pronto para funcionar 24x7. Isso pode significar um pequeno data center em espera, para que a interação com o cliente possa continuar com um número muito reduzido de operadoras de telefonia e um aviso de interrupção no site do espaço reservado. Pode significar uma segunda conexão à Internet com roteamento redundante no site principal, mantendo-se fria até que seja necessário. Pode significar, como Mark Henderson observa acima, seguro (mas seguro que cobre as perdas de negócios e os custos reais de recuperação); se você pode gastar seu orçamento de BC em um único pedaço de papel que cubra todos os custos esperados em caso de desastre, pode fazer sentido comprar esse pedaço de papel - mas não se esqueça de considerar a falha do subscritorno seu plano de risco de negócios. Isso pode significar a atualização dos contratos de manutenção de certos equipamentos principais para os extremamente caros, com quatro horas de reparo. Somente você pode saber o que faz sentido para o seu negócio.

E depois de ter esse plano, você realmente precisa testá-lo (com a possível exceção dos seguros). Eu trabalhei em um local onde tínhamos um local frio completo para operações em pequena escala, pronto para passar a 45 minutos de carro de nossas instalações principais. Quando tivemos um problema que desligou a rede principal, acabamos tentando corrigi-la ao vivo, em vez de passar para o site frio e depoisfixando o núcleo e cortando. Uma das razões por trás do fracasso no corte foi que não tínhamos ideia real de quanto tempo levaria para cortar e cortar. Portanto, ninguém realmente sabia quanto tempo as coisas deveriam funcionar sem interrupção antes de tomar a decisão de cortar, então - compreensivelmente - havia reticência em decidir cortar. Cabeças rolaram depois que voltamos à Internet, 14 horas depois; não por causa da interrupção propriamente dita , mas porque muito dinheiro foi gasto em uma instalação para mitigar uma interrupção de mais de um dia que permaneceu sem uso durante exatamente essa interrupção.

Como ponto final, observe que não é garantido que os componentes terceirizados do seu plano de negócios funcionem. Sua gerência sênior pode estar sentada pensando: " se colocarmos os servidores na nuvem, eles sempre estarão lá e podemos acionar os administradores de sistemas ". Não tão. As nuvens podem falhar como qualquer outra coisa; se você terceirizou componentes críticos para um provedor, tudo o que você fez foi remover sua capacidade de estimar as chances de falha desses componentes. Os SLAs são muito bons, mas, a menos que sejam apoiados por multas substanciais por falta de desempenho, não fazem sentido - por que seu provedor gastaria dinheiro extra para permanecer disponível se eles pudessem gastar apenas o dinheiro e reembolsar suas taxas de serviço pelo período de indisponibilidade? Para ser confiável, seus SLAs precisam vir com penalidades que se aproximam dos custos para os negócios da interrupção. Sim, isso aumentará muito os custos de terceirização; e sim, isso é totalmente esperado.

— Chapeleiro Louco
fonte

2

Devo acrescentar ... este site foi atingido por um raio três vezes desde a publicação original. O motivo foi rastreado até o aterramento elétrico insuficiente / inexistente em várias áreas da instalação. Processamos os contratados e o seguro cuidou da maior parte das substituições.

— ewwhite

2

Desculpe, ehhite, minha estipulação inicial deveria ter se aplicado mais claramente a você também; em sites onde qualquer risco é acima do plano de fundo, faz sentido para mim, pelo menos, considerar a mitigação especificamente direcionada para esse risco . Minha resposta foi mais para todo mundo, que pode ler sua pergunta e começar a pensar " bem, eu também não tenho um plano de iluminação; talvez eu deva ".

— MadHatter

6

Sempre se resume a quanto você deseja gastar. Eu não tenho conhecimento suficiente o suficiente para falar longamente sobre isso, mas eu estive em um grande centro de dados farmacêuticos que sofreu um relâmpago e soprou através de algo que deveria ser um para-raios multi-redundante (e foi projetado corretamente , mas foi implementado incorretamente para que algo seja resolvido.)

Qual foi o pico máximo que seu no-break poderia ter evitado? Deve ter uma classificação. Aparentemente, a greve foi direta o suficiente para exceder isso, ou algo vazou ao redor da alimentação do no-break, como um terreno ruim. Portanto, talvez você revise seu projeto de energia, determine qual é a probabilidade de outro ataque, compare o custo do tempo de inatividade X com a correção e talvez um eletricista faça uma boa pesquisa nas instalações para garantir que tudo esteja devidamente aterrado - e algumas leituras rápidas mostram que o aterramento para segurança / código não é tão intenso quanto o aterramento para evitar danos causados por raios.

— mfinni
fonte

O no-break parece estar bem. Havia problemas em várias partes do edifício, mas as principais especificações técnicas UPS estado "múltiplos de ruídos Filtragem de pólos: 0,3% IEEE tensão: tempo de resposta aperto zero: cumpre UL 1449"

— ewwhite

OK parece bom. Então provavelmente se esgueirou por outros meios, se a alimentação da sua rede elétrica for sólida.

— M111

Avaliação de danos ao equipamento após um relâmpago - Devo ter planejado mais?