A pequena faculdade onde trabalho está tendo problemas de rede muito estranhos. Estou procurando conselhos ou idéias aqui. Ficamos bem durante o verão, mas o problema começou poucos dias depois que os alunos voltaram ao campus em vigor para o período de outono.
Sintomas
O principal sintoma é que o acesso à Internet funcionará, mas é muito lento ... muitas vezes, a ponto de tempos limites. Como exemplo, um resultado típico do Speedtest.net retornará o download de 4 Mbps, mas permitirá uma velocidade de upload de 3 a 8 Mbps. Sintomas menores podem incluir desempenho severamente limitado na transferência de dados de e para nosso servidor de arquivos ou, em alguns casos, a incapacidade de efetuar logon no computador (não é possível acessar o controlador de domínio). O problema atravessa várias vlans e afetou os dispositivos em quase todas as vlan que operamos.
O problema não afeta todas as máquinas na rede. Uma máquina não afetada normalmente verá o download de pelo menos 11 Mbps no speedtest.net e talvez muito mais dependendo dos padrões de tráfego do campus maiores no momento.
Há uma variação na questão maior. Temos uma vlan em que os usuários não conseguiram efetuar login em quase todas as máquinas. A equipe de TI efetuaria login usando uma conta de administrador local (ou, em alguns casos, credenciais armazenadas em cache) e, a partir daí, uma liberação / renovação ou ping do gateway permitiria que a máquina funcionasse ... por um tempo. Para complicar a questão, essa vlan abrange nossos laboratórios de computadores, que usam software chamado Deep Freeze para redefinir completamente os discos rígidos após uma reinicialização. Pode ser o mesmo problema que se manifesta de maneira diferente devido a dados obsoletos em máquinas que não alteram permanentemente as informações de baixo nível há semanas. Conseguimos resolver isso, no entanto, criando uma nova vlan e movendo os laboratórios para o novo atacado da vlan.
Instigações
Eventualmente, percebemos que todas as máquinas afetadas tinham concessões dhcp recentes. Podemos prever quando uma máquina ficará "lenta" observando quando um contrato dhcp será renovado. Brincamos em definir o tempo de concessão muito curto para uma vlan de teste, mas tudo o que fizemos foi remover nossa capacidade de prever quando a máquina ficaria lenta. Máquinas com IPs estáticos praticamente sempre funcionaram normalmente. A liberação / renovação manual de um endereço nunca fará com que a máquina fique lenta. De fato, em alguns casos, esse processo fixouuma máquina nesse estado. Na maioria das vezes, porém, isso não ajuda. Também observamos que máquinas móveis como laptops provavelmente ficarão lentas quando passarem para novas vlans. A conexão sem fio no campus é dividida em "zonas", onde cada zona é mapeada para um pequeno conjunto de edifícios. Mudar para um novo prédio pode colocá-lo em uma zona, fazendo com que você obtenha um novo endereço. Também é provável que uma máquina que saia do modo de suspensão seja lenta.
Mitigações
Às vezes, mas nem sempre, limpar o cache do arp em uma máquina afetada permitirá que ele funcione normalmente novamente. Como já mencionado, liberar / renovar o endereço IP de uma máquina local pode consertar essa máquina, mas não é garantido. Às vezes, executar ping no gateway padrão também pode ajudar com uma máquina lenta.
O que parece ajudar mais a atenuar o problema é limpar o cache do arp em nosso switch de camada 3 principal. Essa opção é usada em nosso sistema dhcp como gateway padrão em todas as vlans e lida com o roteamento entre vlan. O modelo é um 3Com 4900SX. Para tentar atenuar o problema, temos o tempo limite do cache definido no comutador até o menor tempo possível, mas isso não ajudou. Também montei um script que é executado a cada poucos minutos para conectar-se automaticamente ao switch e redefinir o cache. Infelizmente, isso nem sempre funciona e pode até fazer com que algumas máquinas acabem no estado lento por um curto período de tempo (embora elas pareçam se corrigir após alguns minutos). Atualmente, temos um trabalho agendado que é executado a cada 10 minutos para forçar o switch principal a limpar seu cache ARP, mas isso está longe de ser perfeito ou desejável.
Reprodução
Agora temos uma máquina de teste que podemos forçar ao estado lento à vontade. Ele está conectado a um switch com portas configuradas para cada uma das nossas vlans. Tornamos a máquina lenta conectando-se a diferentes vlans e, após uma nova conexão ou duas, ela fica lenta.
Também vale a pena notar nesta seção que isso aconteceu antes no início de termos anteriores, mas no passado o problema desapareceu por si só depois de alguns dias. Ele se resolveu antes que tivéssemos a chance de fazer muito trabalho de diagnóstico ... por isso, permitimos que ele se arrastasse tanto tempo no termo dessa vez; a expectativa era que essa seria uma situação de vida curta.
Outros fatores
Vale ressaltar que tivemos cerca de meia dúzia de switches que falharam completamente no ano passado. Estes são principalmente os 3Coms da era 2003/2004 (a maioria 4200) que foram colocados na mesma época. Eles ainda devem estar cobertos pela garantia, a compra da HP dificultou a obtenção de serviços. Principalmente em fontes de alimentação que falharam, mas em alguns casos, usamos uma fonte de alimentação de um comutador com uma placa-mãe com falha para trazer de volta à vida um comutador com uma fonte de alimentação com falha. Atualmente, temos dispositivos UPS em todos os três switches, com exceção de três, mas esse não foi o caso quando comecei dois anos e meio atrás. As severas restrições orçamentárias (estávamos na lista de instituições com problemas financeiros do Departamento de Ed há alguns anos) me forçaram a procurar por empresas como Netgear e TrendNet para substituições,
Também vale a pena mencionar que a grande mudança em nossa rede neste verão foi a migração de um único SSID sem fio entre campus para a abordagem por zonas mencionada anteriormente. Não acho que essa seja a fonte do problema, como já disse: já vimos isso antes. No entanto, é possível que isso esteja exacerbando o problema e talvez seja por isso que é tão difícil isolar.
Diagnóstico
A princípio, parecia claro para nós, dado o tempo e a natureza persistente do problema, que a origem do problema era uma máquina estudantil infectada (ou mal-intencionada) que estava envenenando o cache do ARP. No entanto, tentativas repetidas para isolar a fonte falharam. Essas tentativas incluem vários rastreamentos de pacotes do wireshark e até desativam prédios inteiros por breves períodos. Nem sequer conseguimos encontrar uma entrada ruim no ARP da arma de fumar. Meu melhor palpite atual é um switch de núcleo sobrecarregado ou com falha, mas não tenho certeza de como testar isso, e o custo de substituí-lo cegamente é alto.
Mais uma vez, quaisquer idéias apreciadas.
Atualização: o
comutador principal é substituído. Após 4 dias, tudo está funcionando bem ... mas esperarei a marca de duas semanas antes de resolver o problema.
mtr
pode ser útil aqui.