Esperando que alguém aqui possa ter uma idéia do problema que estamos enfrentando. Atualmente, temos o Cisco TAC analisando o caso, mas eles estão lutando para encontrar a causa raiz.
Embora o título mencione a transmissão ARP e o alto uso da CPU, não temos certeza se eles estão relacionados ou não nesse estágio.
A edição original foi publicada na comunidade online do INE
Reduzimos a rede para um único link sem configuração de redundância; pense nela como uma topologia em estrela.
Fatos:
- Usamos switches 3750x, 4 em uma pilha. Versão 15.0 (1) SE3. O Cisco TAC não confirma problemas conhecidos para erros de CPU ou ARP altos para esta versão específica.
- Não há hubs / switches não gerenciados conectados
- Pilha de núcleo recarregada
- Não temos uma rota padrão "Ip route 0.0.0.0 0.0.0.0 f1 / 0". Usando o OSPF para roteamento.
- Vemos grandes pacotes de transmissão da VLAN 1, VLAN 1 usados para dispositivos de desktop. Usamos 192.168.0.0/20
- O Cisco TAC disse que eles não veem nada de errado em usar / 20; caso contrário, teríamos um domínio de broadcast grande, mas ainda assim funcionaríamos.
- Wifi, gerenciamento, impressoras etc estão todos em diferentes VLAN
- A extensão da árvore foi verificada por indivíduos qualificados pelo Cisco TAC e CCNP / CCIE. Encerramos todos os links redundantes.
- A configuração no núcleo foi verificada Cisco TAC.
- Temos o tempo limite padrão do ARP na maioria dos comutadores.
- Não implementamos perguntas e respostas.
- Nenhuma nova opção foi adicionada (pelo menos nenhuma que conhecemos)
- Não é possível usar a inspeção arp dinâmica nos comutadores de borda, pois esses são 2950
- Usamos show interfaces | inc line | broadcast para descobrir de onde vem o grande número de broadcast, no entanto, o Cisco TAC e 2 outros engenheiros (CCNP e CCIE) confirmaram que esse é um comportamento normal devido ao que está acontecendo na rede (como no grande número de retalhos de mac) causando a transmissão maior). Verificamos que o STP estava funcionando corretamente nos comutadores de borda.
Sintomas na rede e switches:
- Grande número de retalhos MAC
- Alto uso da CPU para o processo de entrada ARP
- Grande número de pacotes ARP, aumentando rapidamente e visível
- Wiresharks mostra que centenas de computadores estão inundando a rede com o ARP Broadcast
- Para fins de teste, colocamos aproximadamente 80 máquinas de desktop com vlan diferente, no entanto, testamos isso e não fizemos nenhuma diferença visível na entrada de cpu ou arp alta
- Executaram antivírus / malware / spyware diferentes, mas nenhum vírus visível na rede.
- A contagem da tabela de endereços sh mac mostra-nos aproximadamente 750 endereços mac diferentes, conforme o esperado na vlan 1.
#sh processes cpu sorted | exc 0.00%
CPU utilization for five seconds: 99%/12%; one minute: 99%; five minutes: 99%
PID Runtime(ms) Invoked uSecs 5Sec 1Min 5Min TTY Process
12 111438973 18587995 5995 44.47% 43.88% 43.96% 0 ARP Input
174 59541847 5198737 11453 22.39% 23.47% 23.62% 0 Hulc LED Process
221 7253246 6147816 1179 4.95% 4.25% 4.10% 0 IP Input
86 5459437 1100349 4961 1.59% 1.47% 1.54% 0 RedEarth Tx Mana
85 3448684 1453278 2373 1.27% 1.04% 1.07% 0 RedEarth I2C dri
- Ran mostrou a tabela de endereços mac em diferentes switches e o próprio núcleo (no núcleo, por exemplo, conectado diretamente pela área de trabalho, minha área de trabalho), e podemos ver os vários endereços de hardware MAC sendo registrados na interface, mesmo que essa interface tenha sido apenas um computador conectado a isso:
Vlan Mac Address Type Ports
---- ----------- -------- -----
1 001c.c06c.d620 DYNAMIC Gi1/1/3
1 001c.c06c.d694 DYNAMIC Gi1/1/3
1 001c.c06c.d6ac DYNAMIC Gi1/1/3
1 001c.c06c.d6e3 DYNAMIC Gi1/1/3
1 001c.c06c.d78c DYNAMIC Gi1/1/3
1 001c.c06c.d7fc DYNAMIC Gi1/1/3
- mostre a utilização do tcam da plataforma
CAM Utilization for ASIC# 0 Max Used
Masks/Values Masks/values
Unicast mac addresses: 6364/6364 1165/1165
IPv4 IGMP groups + multicast routes: 1120/1120 1/1
IPv4 unicast directly-connected routes: 6144/6144 524/524
IPv4 unicast indirectly-connected routes: 2048/2048 77/77
IPv4 policy based routing aces: 452/452 12/12
IPv4 qos aces: 512/512 21/21
IPv4 security aces: 964/964 45/45
Agora estamos em um estágio em que exigiremos uma quantidade enorme de tempo de inatividade para isolar cada área de cada vez, a menos que alguém tenha algumas idéias para identificar a origem ou a causa raiz desse problema estranho e bizarro.
Atualizar
Obrigado @ MikePennington e @ RickyBeam pela resposta detalhada. Vou tentar responder o que puder.
- Como mencionado, 192.168.0.0/20 é uma bagunça herdada. No entanto, pretendemos dividir isso no futuro, mas infelizmente esse problema ocorreu antes que pudéssemos fazer isso. Pessoalmente, também concordo com a maioria, segundo a qual o domínio de transmissão é muito grande.
- O uso do Arpwatch é definitivamente algo que podemos tentar, mas suspeito que várias portas de acesso estão registrando endereços MAC, mesmo que não pertençam a essa porta, a conclusão do arpwatch pode não ser útil.
- Concordo plenamente em não ter 100% de certeza de encontrar todos os links redundantes e comutadores desconhecidos na rede, mas como o melhor de nossa descoberta, esse é o caso até encontrarmos mais evidências.
- A segurança portuária foi analisada, infelizmente a gerência decidiu não usá-la por vários motivos. O motivo comum é que constantemente movemos os computadores (ambiente da faculdade).
- Usamos o spanning tree portfast juntamente com o spanning tree bpduguard por padrão em todas as portas de acesso (máquinas desktop).
- No momento, não usamos switchport não negociado na porta de acesso, mas não estamos recebendo nenhum ataque de salto de Vlan entre vários Vlans.
- Irá dar uma notificação à tabela de endereços mac e verificar se podemos encontrar algum padrão.
"Como você está recebendo um grande número de abas de MAC entre as portas de switch, é difícil encontrar onde estão os infratores (suponha que você encontre dois ou três endereços MAC que enviam muitos arps, mas os endereços Mac de origem continuam alternando entre as portas)."
- Começamos com isso, escolhemos qualquer um dos retalhos MAC e continuamos nosso caminho através de todo o switch central até a distribuição para acessar o switch, mas o que descobrimos foi mais uma vez, a interface da porta de acesso estava sobrecarregando vários endereços mac, portanto, mac flaps; Então, de volta à estaca zero.
- Controle de tempestade é algo que consideramos, mas tememos que alguns pacotes legítimos sejam descartados, causando mais problemas.
- Verificará três vezes a configuração do VMHost.
- @ytti, os endereços MAC inexplicáveis estão atrás de muitas portas de acesso e não de um indivíduo. Não foram encontrados loops nessas interfaces. Os endereços MAC também existem em outras interfaces, o que explicaria grande número de abas MAC
- @ RickyBeam Concordo com o motivo pelo qual os hosts estão enviando tantas solicitações de ARP; esse é um dos problemas intrigantes. A ponte sem fio Rouge é interessante, e até onde sabemos, a conexão sem fio está em uma VLAN diferente; mas não autorizado, obviamente, significa que pode estar na VLAN1.
- @ RickyBeam, eu realmente não desejo desconectar tudo, pois isso causará uma quantidade enorme de tempo de inatividade. No entanto, é aqui que pode estar indo. Temos servidores Linux, mas não mais que 3.
- @ RickyBeam, você pode explicar a investigação "em uso" do servidor DHCP?
Nós (Cisco TAC, CCIEs, CCNP) concordamos globalmente que essa não é uma configuração de switch, mas um host / dispositivo está causando o problema.
switchport port-security aging time 5
e switchport port-security aging type inactivity
significa que você pode mover estações entre portas após 5 minutos de inatividade ou se você limpar manualmente a entrada de segurança da porta. No entanto, essa configuração evita interrupções do mac entre as portas de acesso do switch, porque as portas não podem arbitrariamente obter o mesmo endereço mac de uma porta diferente.