Problema de taxa de transferência de rede (relacionado ao ARP)

9

A pequena faculdade onde trabalho está tendo problemas de rede muito estranhos. Estou procurando conselhos ou idéias aqui. Ficamos bem durante o verão, mas o problema começou poucos dias depois que os alunos voltaram ao campus em vigor para o período de outono.

Sintomas

O principal sintoma é que o acesso à Internet funcionará, mas é muito lento ... muitas vezes, a ponto de tempos limites. Como exemplo, um resultado típico do Speedtest.net retornará o download de 4 Mbps, mas permitirá uma velocidade de upload de 3 a 8 Mbps. Sintomas menores podem incluir desempenho severamente limitado na transferência de dados de e para nosso servidor de arquivos ou, em alguns casos, a incapacidade de efetuar logon no computador (não é possível acessar o controlador de domínio). O problema atravessa várias vlans e afetou os dispositivos em quase todas as vlan que operamos.

O problema não afeta todas as máquinas na rede. Uma máquina não afetada normalmente verá o download de pelo menos 11 Mbps no speedtest.net e talvez muito mais dependendo dos padrões de tráfego do campus maiores no momento.

Há uma variação na questão maior. Temos uma vlan em que os usuários não conseguiram efetuar login em quase todas as máquinas. A equipe de TI efetuaria login usando uma conta de administrador local (ou, em alguns casos, credenciais armazenadas em cache) e, a partir daí, uma liberação / renovação ou ping do gateway permitiria que a máquina funcionasse ... por um tempo. Para complicar a questão, essa vlan abrange nossos laboratórios de computadores, que usam software chamado Deep Freeze para redefinir completamente os discos rígidos após uma reinicialização. Pode ser o mesmo problema que se manifesta de maneira diferente devido a dados obsoletos em máquinas que não alteram permanentemente as informações de baixo nível há semanas. Conseguimos resolver isso, no entanto, criando uma nova vlan e movendo os laboratórios para o novo atacado da vlan.

Instigações

Eventualmente, percebemos que todas as máquinas afetadas tinham concessões dhcp recentes. Podemos prever quando uma máquina ficará "lenta" observando quando um contrato dhcp será renovado. Brincamos em definir o tempo de concessão muito curto para uma vlan de teste, mas tudo o que fizemos foi remover nossa capacidade de prever quando a máquina ficaria lenta. Máquinas com IPs estáticos praticamente sempre funcionaram normalmente. A liberação / renovação manual de um endereço nunca fará com que a máquina fique lenta. De fato, em alguns casos, esse processo fixouuma máquina nesse estado. Na maioria das vezes, porém, isso não ajuda. Também observamos que máquinas móveis como laptops provavelmente ficarão lentas quando passarem para novas vlans. A conexão sem fio no campus é dividida em "zonas", onde cada zona é mapeada para um pequeno conjunto de edifícios. Mudar para um novo prédio pode colocá-lo em uma zona, fazendo com que você obtenha um novo endereço. Também é provável que uma máquina que saia do modo de suspensão seja lenta.

Mitigações

Às vezes, mas nem sempre, limpar o cache do arp em uma máquina afetada permitirá que ele funcione normalmente novamente. Como já mencionado, liberar / renovar o endereço IP de uma máquina local pode consertar essa máquina, mas não é garantido. Às vezes, executar ping no gateway padrão também pode ajudar com uma máquina lenta.

O que parece ajudar mais a atenuar o problema é limpar o cache do arp em nosso switch de camada 3 principal. Essa opção é usada em nosso sistema dhcp como gateway padrão em todas as vlans e lida com o roteamento entre vlan. O modelo é um 3Com 4900SX. Para tentar atenuar o problema, temos o tempo limite do cache definido no comutador até o menor tempo possível, mas isso não ajudou. Também montei um script que é executado a cada poucos minutos para conectar-se automaticamente ao switch e redefinir o cache. Infelizmente, isso nem sempre funciona e pode até fazer com que algumas máquinas acabem no estado lento por um curto período de tempo (embora elas pareçam se corrigir após alguns minutos). Atualmente, temos um trabalho agendado que é executado a cada 10 minutos para forçar o switch principal a limpar seu cache ARP, mas isso está longe de ser perfeito ou desejável.

Reprodução

Agora temos uma máquina de teste que podemos forçar ao estado lento à vontade. Ele está conectado a um switch com portas configuradas para cada uma das nossas vlans. Tornamos a máquina lenta conectando-se a diferentes vlans e, após uma nova conexão ou duas, ela fica lenta.

Também vale a pena notar nesta seção que isso aconteceu antes no início de termos anteriores, mas no passado o problema desapareceu por si só depois de alguns dias. Ele se resolveu antes que tivéssemos a chance de fazer muito trabalho de diagnóstico ... por isso, permitimos que ele se arrastasse tanto tempo no termo dessa vez; a expectativa era que essa seria uma situação de vida curta.

Outros fatores

Vale ressaltar que tivemos cerca de meia dúzia de switches que falharam completamente no ano passado. Estes são principalmente os 3Coms da era 2003/2004 (a maioria 4200) que foram colocados na mesma época. Eles ainda devem estar cobertos pela garantia, a compra da HP dificultou a obtenção de serviços. Principalmente em fontes de alimentação que falharam, mas em alguns casos, usamos uma fonte de alimentação de um comutador com uma placa-mãe com falha para trazer de volta à vida um comutador com uma fonte de alimentação com falha. Atualmente, temos dispositivos UPS em todos os três switches, com exceção de três, mas esse não foi o caso quando comecei dois anos e meio atrás. As severas restrições orçamentárias (estávamos na lista de instituições com problemas financeiros do Departamento de Ed há alguns anos) me forçaram a procurar por empresas como Netgear e TrendNet para substituições,

Também vale a pena mencionar que a grande mudança em nossa rede neste verão foi a migração de um único SSID sem fio entre campus para a abordagem por zonas mencionada anteriormente. Não acho que essa seja a fonte do problema, como já disse: já vimos isso antes. No entanto, é possível que isso esteja exacerbando o problema e talvez seja por isso que é tão difícil isolar.

Diagnóstico

A princípio, parecia claro para nós, dado o tempo e a natureza persistente do problema, que a origem do problema era uma máquina estudantil infectada (ou mal-intencionada) que estava envenenando o cache do ARP. No entanto, tentativas repetidas para isolar a fonte falharam. Essas tentativas incluem vários rastreamentos de pacotes do wireshark e até desativam prédios inteiros por breves períodos. Nem sequer conseguimos encontrar uma entrada ruim no ARP da arma de fumar. Meu melhor palpite atual é um switch de núcleo sobrecarregado ou com falha, mas não tenho certeza de como testar isso, e o custo de substituí-lo cegamente é alto.

Mais uma vez, quaisquer idéias apreciadas.

Atualização: o
comutador principal é substituído. Após 4 dias, tudo está funcionando bem ... mas esperarei a marca de duas semanas antes de resolver o problema.

networking performance arp

— Joel Coel
fonte

Você está vendo perda de pacotes nas máquinas afetadas? Em caso afirmativo, onde ocorre a perda de pacotes? mtrpode ser útil aqui.

— EEAA

3

Isso parece suspeito como se um de seus comutadores estivesse com defeito, corrompendo suas tabelas arp e propagando as entradas corrompidas para os outros comutadores. Daí o alívio parcial quando as tabelas são limpas no núcleo L3. Eu recomendo fortemente que você redefina TODAS as opções antes de novas tentativas de solução de problemas. Com um pouco de sorte, isso resolve o problema completamente. Se um switch estiver realmente com defeito, esperamos que falhe no diagnóstico de inicialização após a reinicialização. PS Pequenas flutuações na rede elétrica podem ter esse efeito. Se os seus switches não estiverem no no-break, isso pode ser a causa raiz.

— Tonny

@ ErikA, temos alguma perda de pacotes. Vou ver se consigo um melhor rastreamento ... mas a perda de pacotes vem de todos os locais do campus, o que significa que o único ponto de conexão comum é o switch principal e o switch conectado aos nossos servidores.

— Joel Coel

1

@Tonny Redefinimos todos (ou quase todos) os switches pelo menos duas vezes como parte da solução de problemas. Isso pareceu reduzir (não eliminar) as reclamações por cerca de um dia / dia e meio. Temos cerca de 40 unidades de comutação, com dispositivos UPS para todos, exceto três ou quatro. O principal aqui é que todos os nossos switches foram instalados quase ao mesmo tempo e tivemos seis falhas definitivas no ano passado, portanto, há muita credibilidade nisso.

— Joel Coel

1

Não tenho nenhuma experiência na 3com, mas talvez haja uma maneira de limitar o número de endereços mac aprendidos em uma determinada porta. Você pode fazer isso em todas as portas de acesso das máquinas dos alunos, caso alguém esteja inundando o Mac, transformando seus comutadores em hubs.

— Bad Dos

2

Joel,

Como você tem a configuração de troncos e pode duplicar o problema à vontade. Instale o Wireshark em um laptop e espelhe / abasteça uma porta de uplink. Se você ver a taxa de pacotes acima de 10.000 ou a utilização da porta perto da velocidade máxima, você tem um problema.

Você pode ter um problema de hardware / árvore de abrangência. Normalmente, encontrei usuários conectando ambas as placas de rede em suas máquinas "para obter mais rendimento".

Normalmente, para problemas da Spanning Tree, você pode ativar a detecção de loop ou a limitação de transmissão por porta do seu fornecedor. Isso matará qualquer porta com um loop encontrado. Você também pode ativar a "proteção bpdu", que significa desativar a porta na qual o bpdu foi recebido e gerar um erro nos receptores de interceptação syslog / snmp.

Joe

— user1940189
fonte

1

Eu já vi problemas semelhantes a isso antes e tem sido um loop na LAN, que causa o caos e a saturação de toda a sub-rede (presumivelmente do tráfego de broadcast devido ao switch ver seu próprio MAC em uma porta adicional).

EDIT: Além disso, isso é comum em estabelecimentos de ensino (dois dos meus trabalhos anteriores no sysadmin), pois os queridinhos gostam de brincar com cabos / soquetes de patch ...

— George
fonte

Passamos muito tempo checando exatamente isso, mas acabamos descartando.

— Joel Coel

0

Parece-me que você tem um hardware ruim que causa tempestades de transmissão. Use o Wireshark para assistir a transmissões e encontrar um host que lhe cause problemas ...

— Gene
fonte

É muito improvável que isso aconteça se algumas máquinas funcionarem bem e outras não. Uma tempestade de transmissão trará toda a VLAN de joelhos em pouco tempo.

— Paul Engrenagem

0

A ideia de Joe é boa, mas como não é provável que seja uma tempestade de transmissão criando seu problema (acho que você está no caminho certo com envenenamento por cache ARP ou um problema semelhante; pode até ser um conflito de endereço IP), provavelmente não resolverá o problema.

Uma técnica relacionada para usar a inspeção dinâmica de ARP e DHCP, se seus comutadores suportarem. Se você ativar isso, os comutadores assistirão às transações DHCP e somente permitirão entradas ARP que correspondam às entradas conhecidas no banco de dados DHCP ou àquelas especificadas manualmente.

Se os seus comutadores não tiverem esse recurso, outra opção para rastreá-lo é o utilitário arpwatch do Linux - ele rastreia todas as solicitações de ARP e informa quando percebe uma alteração no mapeamento de IP-MAC.

— Paul Gear
fonte