Venho fazendo atualizações de firmware nos switches HP. Dois modelos diferentes foram atualizados:
- ProCurve Switch 5406zl Intelligent Edge (J8697A): atualizado de K.15.06.0008 para K.15.12.0012
- Switch HP 2520-24G-PoE (J9299A): atualizado de J.14.54 para J.15.09.0021
Verificando cada opção logo após a inicialização da nova imagem, observei algo:
- Os switches carregaram a nova imagem de firmware sem erros e a conectividade foi recuperada assim que o switch foi inicializado. Nesse ponto, o uso da CPU era baixo (menos de 10%)
- Poucos segundos depois, o uso da CPU aumentou até 100% e permaneceu ali por vários minutos. Não pude detectar nenhum problema neste momento, além da CLI através do SSH ser um pouco lenta: conectividade normal, sem mensagens de log ...
- Após cinco a dez minutos a 100%, a CPU voltou ao normal sem nenhuma alteração do meu lado.
Ambos os modelos estavam tendo esse comportamento. Revirei uma unidade de cada modelo para a imagem anterior do firmware e eles se comportaram da mesma maneira.
Apesar desse pico de CPU logo após a inicialização não ter causado nenhum problema, pergunto-me se o comportamento normal da rede poderia ser a causa desse pico, mas acho que não. Eu considerei os seguintes aspectos:
Logo após a inicialização, o STP inicia a execução, gerando BPDUs e alternando todas as portas no switch pelos estados Bloking, Listening, Learning e Forwarding. No entanto, mesmo com o 802.1D, esse processo não leva mais que 1 minuto com os cronômetros padrão. Além disso, eu estava verificando os switches através do SSH, para que todos os cálculos de STP já estivessem concluídos no momento em que eu pudesse conectar-me ao switch.
Logo após a inicialização, a tabela de endereços MAC está vazia e é necessária a difusão para que os primeiros quadros sejam encaminhados. Mas duvido que essa transmissão levasse 100% da CPU, muito menos por 5 minutos, em um switch de 24 portas.
Como todos os switches que atuam como dispositivos L2, nenhuma funcionalidade L3 é ativada, descarto o roteamento e outros processos L3.
Estou faltando algo "normal" nas operações de rede que pode explicar esse uso da CPU por 5 minutos após a reinicialização, mantendo a conectividade? Talvez seja algum tipo de processo em segundo plano que o switch seja executado logo após a reinicialização?