Problema do switch de pulsação do cluster Cisco Catalyst

7

PROBLEMA: Os servidores em dois clusters continuam perdendo a conectividade de pulsação entre si, causando falhas no banco de dados. As interrupções são breves, mas perturbadoras.

CONFIGURAÇÃO:

Existem dois clusters de três servidores cada.
Cada servidor possui uma NIC conectada a um único switch de Camada 2 (Catalyst 2950) com as portas do switch codificadas em 100Mb / full-duplex.
Os DBAs confirmam que cada NIC de pulsação é codificada para 100Mb / full-duplex.
Existem dois clusters configurados na VLAN 100 e na mesma sub-rede (10.40.60.0/24).
O endereço IP de gerenciamento está em uma sub-rede separada (10.40.1.0/24) e a porta do switch está na VLAN 1.

SINTOMAS:

Vejo uma contagem crescente de erros nas portas do switch. Para os três servidores em um cluster, os erros de entrada (todos CRC) representam cerca de 3% do total de pacotes de entrada. Não há erros de saída. O outro cluster está em cerca de 6% do total de pacotes de entrada.
A transmissão e a carga de recepção nas portas do switch são leves, abaixo de 20/255 em txload e rxload.
O log do comutador mostra as portas do comutador saltando:

16 de maio 11:15:31 PDT:% LINEPROTO-5-UPDOWN: Protocolo de linha na Interface FastEthernet0 / 13, estado alterado para inativo
16 de maio 11:15:32 PDT:% LINK-3-UPDOWN: Interface FastEthernet0 / 13, alterado state to down
16 de maio 11:15:34 PDT:% LINK-3-UPDOWN: Interface FastEthernet0 / 13, alterado estado para up
16 de maio 11:15:35 PDT:% LINEPROTO-5-UPDOWN: Protocolo de linha na Interface FastEthernet0 / 13, mudou de estado para até

SOLUÇÃO DE PROBLEMAS ETAPAS REALIZADAS:

Substituí o antigo cabo Cat5 entre a NIC de pulsação do servidor e o switch pelo novo Cat6 - sem efeito.
Criei uma nova VLAN 200 em uma nova sub-rede (10.40.61.0/24) e fiz com que os DBAs re-IPs suas NICs de pulsação em um cluster - sem efeito.
Tentamos todas as combinações de velocidade e duplex na porta do switch e na NIC - sem efeito, voltamos a 100Mb / full-duplex nos dois.
Os DBAs atualizaram os drivers Broadcom nos dois clusters para os mais recentes - queda na porcentagem de erros no cluster de 6% para 4%, o outro cluster ainda está em 3%.

MEUS PROPOSTOS PRÓXIMOS PASSOS:

Existem placas de rede Intel nos servidores. Tente mover a pulsação do cluster para uma NIC da Intel. Talvez seja um problema da Broadcom?
Mude o comutador para um comutador com capacidade de gig. Há um Catalayst 3560x disponível, mas sua execução atrasará um projeto. Talvez show na porta do switch e NIC vai jogar melhor?

PENSAMENTOS?

Existe algo que eu possa configurar no switch 2950 existente para atenuar os erros? Que etapas adicionais de solução de problemas devo seguir?

cisco cisco-catalyst

— VMEricAnderson
fonte

9

Erros de CRC geralmente são problemas de cabeamento. Aqui estão as coisas que eu verificaria a seguir antes de trocar o hardware:

Os servidores estão conectados diretamente ao comutador ou eles se conectam através de algum tipo de cabeamento de infraestrutura? Nesse caso, obtenha novamente os cabos de infraestrutura.
Se você tiver um testador de cabo real (não um simples testador de continuidade), eu testaria os cabos.
Se os cabos forem feitos à mão, eu os substituiria por cabos fabricados na fábrica. Geralmente, esses tipos de problemas ocorrem com cabos feitos à mão.
Verifique se há alguma fonte de EM perto de onde os cabos passam. Reencaminhe os cabos se puder, mesmo que temporariamente, para garantir que eles sejam mantidos separados da energia ou de outras fontes de EM.

Além disso, eu começaria nas NICs, como você já indicou. Pode ser que você tenha conseguido alguns de uma corrida ruim.

— YLearn
fonte

3

Eu recomendaria o teste passando para a NIC da Intel, como você propôs. Corri para problemas semelhantes em que uma pequena porcentagem do tráfego era de erros de entrada. Nós resolvemos o problema colocando um hub estúpido entre o servidor (no meu caso, eram câmeras) e o switch. Se o comutador não vir mais erros de entrada, o problema é a NIC do servidor.

Eu tentei muitos dos mesmos passos que você propôs. No meu caso, acabou por ser uma má produção. A única coisa que corrigiu o problema foi a substituição da NIC (câmeras).

— henklu
fonte

Problema do switch de pulsação do cluster Cisco Catalyst - aumentando erros de entrada