PROBLEMA: Os servidores em dois clusters continuam perdendo a conectividade de pulsação entre si, causando falhas no banco de dados. As interrupções são breves, mas perturbadoras.
CONFIGURAÇÃO:
- Existem dois clusters de três servidores cada.
- Cada servidor possui uma NIC conectada a um único switch de Camada 2 (Catalyst 2950) com as portas do switch codificadas em 100Mb / full-duplex.
- Os DBAs confirmam que cada NIC de pulsação é codificada para 100Mb / full-duplex.
- Existem dois clusters configurados na VLAN 100 e na mesma sub-rede (10.40.60.0/24).
- O endereço IP de gerenciamento está em uma sub-rede separada (10.40.1.0/24) e a porta do switch está na VLAN 1.
SINTOMAS:
- Vejo uma contagem crescente de erros nas portas do switch. Para os três servidores em um cluster, os erros de entrada (todos CRC) representam cerca de 3% do total de pacotes de entrada. Não há erros de saída. O outro cluster está em cerca de 6% do total de pacotes de entrada.
- A transmissão e a carga de recepção nas portas do switch são leves, abaixo de 20/255 em txload e rxload.
- O log do comutador mostra as portas do comutador saltando:
16 de maio 11:15:31 PDT:% LINEPROTO-5-UPDOWN: Protocolo de linha na Interface FastEthernet0 / 13, estado alterado para inativo
16 de maio 11:15:32 PDT:% LINK-3-UPDOWN: Interface FastEthernet0 / 13, alterado state to down
16 de maio 11:15:34 PDT:% LINK-3-UPDOWN: Interface FastEthernet0 / 13, alterado estado para up
16 de maio 11:15:35 PDT:% LINEPROTO-5-UPDOWN: Protocolo de linha na Interface FastEthernet0 / 13, mudou de estado para até
- Substituí o antigo cabo Cat5 entre a NIC de pulsação do servidor e o switch pelo novo Cat6 - sem efeito.
- Criei uma nova VLAN 200 em uma nova sub-rede (10.40.61.0/24) e fiz com que os DBAs re-IPs suas NICs de pulsação em um cluster - sem efeito.
- Tentamos todas as combinações de velocidade e duplex na porta do switch e na NIC - sem efeito, voltamos a 100Mb / full-duplex nos dois.
- Os DBAs atualizaram os drivers Broadcom nos dois clusters para os mais recentes - queda na porcentagem de erros no cluster de 6% para 4%, o outro cluster ainda está em 3%.
MEUS PROPOSTOS PRÓXIMOS PASSOS:
- Existem placas de rede Intel nos servidores. Tente mover a pulsação do cluster para uma NIC da Intel. Talvez seja um problema da Broadcom?
- Mude o comutador para um comutador com capacidade de gig. Há um Catalayst 3560x disponível, mas sua execução atrasará um projeto. Talvez show na porta do switch e NIC vai jogar melhor?
PENSAMENTOS?
Existe algo que eu possa configurar no switch 2950 existente para atenuar os erros? Que etapas adicionais de solução de problemas devo seguir?