fundo
Eu tenho um servidor DHCP do Windows (Server 2008 R2) distribuindo endereços para vários escopos. Um desses escopos é para alguns telefones IP da Mitel. Os telefones estão configurados para usar a opção dhcp 125 para obter informações de configuração. Quando um telefone é inicializado, ele não sabe qual vlan usar e, portanto, obtém a vlan padrão (sem marcação) de qualquer porta à qual está conectada. O servidor dhcp fornece uma resposta que inclui informações da opção 125 e o telefone pode ler qual vlan deve usar nessa resposta. O telefone libera seu endereço original e solicita uma nova concessão dhcp usando a tag vlan correta. Os telefones também costumam ter computadores conectados a uma porta de passagem. Os pacotes dos computadores nunca são marcados e, portanto, os PCs permanecem na vlan original (sem marcação) da porta. Isso tem funcionado para nós há anos.
Problema e sintomas
Em algum lugar nas últimas semanas, algo mudou e não sei ao certo o que. Os telefones continuarão funcionando enquanto não reiniciarem, o que significa que as solicitações de renovação dhcp devem ser processadas corretamente. Telefones conectados a determinados switches podem até sobreviver a um reinício. Telefones conectados a outros comutadores, no entanto, falharão ao concluir o processo quando reiniciarem. Todos os nossos telefones estão usando PoE com backup de um no-break, portanto faz muito tempo que nenhum deles foi reiniciado. Isso significa que não tenho idéia de quando o problema apareceu pela primeira vez. O que eu sei é que um telefone falhou quando foi reiniciado ontem e, na solução de problemas hoje, redefinimos esse armário de comutação. Agora, nenhum dos telefones nesse comutador está funcionando (felizmente ainda é um número pequeno). Eu também sei que as coisas estavam funcionando perto do final de janeiro,
Enquanto assisto a um telefone inicializar, vejo-o obter o primeiro endereço com êxito. Em seguida, ele lê com êxito as informações da opção 125, define a tag vlan correta e libera a concessão de IP original. É até capaz de receber e aceitar uma oferta na vlan correta do servidor . No entanto, é aí que as coisas param. O telefone tem uma mensagem na tela que diz " DHCP: Offer 2 ACC
", mas o servidor DHCP do Windows não registrou a concessão e o telefone nunca segue em frente. Só posso supor que o pacote DHCP REQUEST nunca chegue ao servidor Windows e, portanto, o telefone aguarda o ACK final do Windows que é aceitável continuar.
Gambiarra
Finalmente consegui colocar um telefone funcionando novamente. Para fazer isso, primeiro tive que desconectar o computador. Em seguida, defino a porta do switch do telefone para não ser marcada na vlan do telefone, sem associação à vlan do PC. O telefone agora será reiniciado corretamente. Nesse momento, posso colocar a configuração da porta do switch de volta onde deveria estar e, desde que ninguém tente ligar para esse número enquanto estou redefinindo a porta, o telefone nunca perde uma batida. Então eu posso reconectar o computador. Obviamente, esse não é um processo ideal, embora desde que os telefones sejam reiniciados tão raramente eu seja capaz de usá-lo para que as pessoas trabalhem novamente até encontrar a causa raiz. Os escritórios estão fechados agora para a semana e, portanto, esse problema será permitido no final de semana (não tenho chaves para escritórios individuais onde os telefones estão).
Esse telefone que consertei é o telefone de serviço na sala do servidor, conectado diretamente ao nosso switch principal. É possível que o problema seja um problema com as tags de roteamento ou processamento no comutador principal, de modo que a solução alternativa não seja eficaz nos escritórios remotos onde os pacotes passam pela primeira vez (marcados por) outros comutadores, mas ficarei muito surpreso se isso acontecer, como eu sei que deve estar processando corretamente as renovações dhcp e as conversas telefônicas reais.
Uma reviravolta é que deixar a porta marcada na vlan do PC significa que o telefone falha com a mensagem " DHCP: Offer 1 ACC
". Preciso remover completamente essa vlan para que isso seja bem-sucedido.
Nota: Confirmei agora que a solução alternativa é eficaz em edifícios remotos. Isso me leva a suspeitar que meus dispositivos não estão de alguma forma atribuídos à vlan correta. O fato de eu ter enfrentado o problema no meu comutador principal e que aconteceu em vários locais da rede aproximadamente ao mesmo tempo indica que o comutador principal pode ser o problema. Sem nada específico para analisar, estou agendando uma janela de manutenção no final da semana para reiniciar o switch. Também posso atualizar o firmware.
Meio Ambiente
Nosso switch principal é um HP 5406zl. Esse switch lida com o roteamento entre vlan. O servidor DHCP do Windows está conectado diretamente ao comutador. Os comutadores de ponto final são conectados ao comutador principal por meio de SFPs de fibra e essas portas são marcadas para todas as vlans nas duas extremidades. O switch principal configura cada vlan com uma ip helper-address
configuração que aponta para o servidor DHCP e uma dhcp relay-option 82 replace
linha para que o servidor dhcp saiba qual escopo usar. Essas configurações e as configurações de porta nos comutadores de terminal não foram alteradas em pelo menos 16 meses. Tivemos outras redefinições de switch e telefone nesse período.
A maioria dos nossos switches de endpoint é da série HP 2530. Esses comutadores parecem funcionar corretamente (telefones em 3 diferentes 2530 foram reiniciados corretamente hoje). São switches mais antigos que têm problemas. Temos um 3Com 4200 antigo e um 4210 que não funcionam. O telefone de serviço conectado diretamente ao switch principal mencionado anteriormente também não funcionaria.
Questão
Neste ponto, meu melhor palpite é que uma atualização do Windows no servidor dhcp alterou o comportamento, mas não consigo ver como. Ou, possivelmente, o comutador principal não está manipulando esse pacote PEDIDO corretamente, mas tenho certeza de que nada mudou lá e não explica por que apenas alguns comutadores de terminal são afetados. Como posso resolver esse problema?
Atualizar:
Aqui está um trecho de log dhcp de um telefone com falha:
10,03 / 06 / 15,12: 40: 40, Atribuir, 10.1.2.158,, 08000F197844,, 3189088995,0 ,,, 11,03 / 06 / 15,12: 40: 40, Renovar, 10.1.2.158, , 08000F197844,, 3189088995,0 ,,, 12,03 / 06 / 15,12: 40: 41, Lançamento, 10.1.2.158,, 08000F197844,, 3189088995,0 ,,, 15,03 / 06 / 15,12: 40: 45, NACK, 10.1.2.154,, 08000F197844,, 0,6 ,,, 15,03 / 06 / 15,12: 40: 45, NACK, 10.1.2.154,, 08000F197844,, 0,6 ,,,
Os endereços 10.xxx são a vlan do PC (essa opção é anterior a mim neste local). Os telefones devem receber esse tipo de endereço no início, então isso é esperado. No entanto, após a mensagem de lançamento, também espero encontrar uma oferta para um endereço no intervalo 192.168.16.x, porque posso ver no telefone que uma oferta foi aceita (a menos que eu esteja interpretando incorretamente "ACC"). É interessante nunca ver o servidor tentar emitir um endereço como esse, mesmo que o telefone pense que recebeu um.
Eu considerei a idéia de que existe um servidor dhcp desonesto na rede (ele entrega um endereço antes do servidor Windows, mas sem as opções dhcp necessárias para o telefone continuar), mas isso não explica por que os telefones funcionam se e somente se Eu removo completamente qualquer caminho para a vlan do PC. Vou testá-lo de qualquer maneira pela manhã conectando meu laptop a uma porta configurada para a vlan do telefone, mas se alguém tiver uma explicação melhor nesse meio tempo, eu adoraria ouvi-lo.
Aqui está uma cópia da configuração do switch: