Um dos sites de meu cliente recebeu um raio direto na semana passada (coincidentemente na sexta - feira 13 ) !
Eu era remoto para o site, mas, trabalhando com alguém no local, descobri um padrão estranho de dano. Ambos os links da Internet estavam inoperantes, a maioria dos servidores estava inacessível. Grande parte dos danos ocorreu no MDF , mas um IDF conectado à fibra também perdeu 90% das portas em um membro da pilha de comutadores. Havia portas de comutação sobressalentes suficientes para redistribuir o cabeamento em outro lugar e reprogramar, mas houve um tempo de inatividade enquanto perseguíamos os dispositivos afetados.
Era uma nova instalação de construção / armazenamento e muito planejamento foi feito no design da sala do servidor. A sala principal do servidor é gerida por um no -break on-line de dupla conversão APC SmartUPS RT 8000VA , apoiado por um gerador. Havia distribuição de energia adequada para todos os equipamentos conectados. Replicação de dados externos e backups de sistemas estavam em vigor.
Ao todo, o dano (que eu sei) foi:
- Placa de linha com 48 portas com falha em um comutador de chassi Cisco 4507R-E .
Switch Cisco 2960 com falha em uma pilha de 4 membros.(opa ... cabo de empilhamento solto)- Várias portas escamosas em um switch Cisco 2960.
- Placa-mãe e fonte de alimentação HP ProLiant DL360 G7.
- Elfiq WAN link balancer.
- Um fax modem Multitech.
- Antena de Internet WiMax / fixo-sem fio e injetor de energia.
- Inúmeros dispositivos conectados a PoE (telefones VoIP, pontos de acesso Cisco Aironet, câmeras de segurança IP)
A maioria dos problemas estava relacionada à perda de um blade de switch inteiro no Cisco 4507R-E. Isso continha parte da rede VMware NFS e a ligação ao firewall do site. Um host VMWare falhou, mas a HA cuidou da VM depois que a conectividade da rede de armazenamento foi restaurada. Fui forçado a reiniciar / ligar / desligar vários dispositivos para limpar os estados de energia descolados. Portanto, o tempo para a recuperação foi curto, mas estou curioso para saber quais lições devem ser aprendidas ...
- Que proteções adicionais devem ser implementadas para proteger o equipamento no futuro?
- Como devo abordar a garantia e a substituição? Cisco e HP estão substituindo itens sob contrato. O caro balanceador de links da WAN Elfiq tem uma sinopse em seu site que diz basicamente "muito ruim, use um protetor contra surtos de rede ". (parece que eles esperam esse tipo de falha)
- Estou na TI há tempo suficiente para encontrar danos causados por tempestades elétricas no passado, mas com um impacto muito limitado; por exemplo, a interface de rede de um PC barato ou a destruição de mini switches.
- Há mais alguma coisa que eu possa fazer para detectar equipamentos potencialmente escamosos ou simplesmente preciso esperar que um comportamento estranho apareça?
- Tudo isso foi apenas azar ou algo que realmente deveria ser considerado na recuperação de desastres?
Com $$$ suficiente, é possível incorporar todos os tipos de redundâncias em um ambiente, mas qual é o equilíbrio razoável entre design preventivo / atencioso e uso eficaz dos recursos aqui?