Eu preciso de um novo par de olhos.
Estamos usando uma linha de fibra óptica de 15 km na qual o fibrecanal e 10GbE são multiplexados (CWDM óptico passivo). Para o FC, temos lasers de longa distância adequados até 40 km ( Skylane SFCxx0404F0D ). O multiplexador é limitado pelos SFPs, que podem fazer no máx. Fibrocanal de 4Gb. O comutador FC é uma série Brocade 5000. Os respectivos comprimentos de onda são 1550,1570,1590 e 1610nm para FC e 1530nm para 10GbE.
O problema é que os tecidos 4GbFC quase nunca estão limpos. Às vezes, ficam por um tempo, mesmo com muito tráfego. De repente, eles podem começar a produzir erros (RX CRC, codificação RX, disparidade RX, ...) mesmo com apenas tráfego marginal neles. Estou anexando alguns gráficos de erro e tráfego. Atualmente, os erros estão na ordem de 50 a 100 erros a cada 5 minutos, com tráfego de 1 Gb / s.
Óptica
Aqui está a saída de energia de uma porta resumida (coletada usando sfpshow
em diferentes switches)
Unidades SITE-A = uW (microwatt) SITE-B ********************************************** FAB1 SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko) RX 95.2 TX 1175.6 FAB2 SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok) RX 54.3 TX 1468.4
O que acho curioso neste momento é a assimetria nos níveis de potência. Enquanto o SW2 transmite com 1422uW, o SW4 recebe com 104uW, o SW2 recebe apenas o sinal SW4 com potência original semelhante apenas com 54uW.
Vice-versa para SW1-3.
De qualquer forma, os SFPs têm sensibilidade RX de até -18dBm (ca. 20uW), portanto, de qualquer forma, tudo deve estar bem ... Mas nada está.
Alguns SFPs foram diagnosticados como defeituosos pelo fabricante (os de 1550nm mostrados acima com "ko"). Os 1610nm aparentemente estão ok, eles foram testados usando um gerador de tráfego. A linha alugada também foi testada mais de uma vez. Tudo está dentro das tolerâncias. Estou aguardando as substituições, mas por algum motivo não acredito que isso melhore as coisas, pois as aparentemente boas também não produzem erros ZERO.
Anteriormente, havia equipamento ativo envolvido (algum tipo de retimer 4GFC) antes de colocar o sinal na linha. Não faço ideia do porquê. Esse equipamento foi eliminado por causa dos problemas, então agora temos apenas:
- o laser de longa distância no comutador,
- (novo) cabo monomodo LC-SC de 10 m para o mux (para cada tecido),
- a linha alugada,
- a mesma coisa, mas invertida no outro lado do link.
Comutadores FC
Aqui está uma configuração de porta do Brocade portcfgshow
(é assim nos dois lados, obviamente)
Número da área: 0 Nível de velocidade: 4G Preencher palavra (no ativo) 0 (inativo) Preencher palavra (atual) 0 (inativo) AL_PA Offset 13: OFF Porta Tronco LIGADA LS de longa distância Inicialização do link VC desativada Distância desejada 32 Km Buffers reservados 70 L_Port bloqueado desativado G_Port bloqueado desativado E_Port desativado E_Port bloqueado desativado Modo ISL R_RDY DESLIGADO Suprimido RSCN OFF Desativação persistente OFF LOS TOV habilitado OFF Capacidade NPIV ativada QOS E_Port OFF Desativação automática da porta: OFF Limite de taxa desativado Porta EX OFF Porta espelho desativada Recuperação de crédito LIGADA Buffers F_Port OFF Atraso de falha: 0 (R_A_TOV) Limite PP NPIV: 126 Modo CSCTL: OFF
Forçar os links para 2GbFC não produz erros, mas compramos 4GbFC e queremos 4GbFC.
Não sei mais onde procurar. Alguma idéia do que tentar em seguida ou como proceder?
Se não podemos fazer com que o 4GbFC funcione de maneira confiável, pergunto-me o que as pessoas que trabalham com 8 ou 16 fazem ... Não suponho que "alguns erros aqui e ali" sejam aceitáveis.
Ah, e BTW, estamos em contato com todos os fabricantes (comutador FC, MUX, SFPs, ...) Exceto que os SFPs sejam alterados (alguns foram alterados antes), ninguém tem idéia. O Brocade SAN Health diz que o tecido está ok. MUX, bem, é passivo, é apenas um prisma, a natureza é a melhor.
Alguma foto no escuro?
APÊNDICE: Respostas às suas perguntas
@ Chopper3: Esta é a segunda geração de Brocades que apresenta o problema. Antes dos 5000, agora temos 5100. No começo, quando ainda tínhamos o MUX ativo, alugamos um laser de longa distância para colocá-lo no interruptor diretamente, a fim de fazer testes por um dia, durante esse dia, é claro que estava limpo. Mas como eu disse, às vezes é limpo assim. E às vezes não é. Comutadores alternativos significariam reconstruir toda a SAN com aqueles apenas para teste. SFPs alternativos, bem, eles são difíceis de encontrar assim.
@ longneck: A linha é alugada. É uma fibra escura (monomodo 9um), então não há mais ninguém nela. Claro que existem emendas. Não posso ir e olhar, mas tenho que confiar que eles foram feitos corretamente. Como eu disse, a linha foi verificada e verificada novamente (usando um refletômetro óptico no domínio do tempo). Obviamente, você não possui todo esse equipamento porque é muito caro.
@mdpc: Qual seria o tipo de cabo "errado" de acordo com você? Até o switch, tudo é monomodo, sim. Os conectores também são os corretos. Sim, eu sei que existem os verdes onde a fibra é cortada em um determinado ângulo, etc. Mas temos os corretos para tudo o que sei.
Relatório de Progresso # 1
Tivemos duas malhas (= 2x2 switches) com Brocade 5100s com FabricOS 6.4.1 e duas malhas (outras 2x2) no FabricOS 7.0.2.
Nos ISLs de longa distância (um em cada malha), descobriu-se que, com o FOS 6.4.1, configurando-o para longa distância, emite avisos sobre a configuração VC Init e, consequentemente, a palavra de preenchimento. Mas esses são apenas avisos. O FOS 7.0.2 exige que você faça modificações no VCI e na palavra-chave para links de longa distância.
A configuração do FOS 6.4.1 como LS (distância estática de longa distância) com VCI e configuração de palavra-chave incorretas tornou a malha inteira inoperacional (presa em um loop SCN, use fabriclog -s
para ver, você não a vê em nenhum outro lugar, nenhum erro de porta contadores ou qualquer coisa que aumente).
Atualmente, estou dando uma surra no tecido com as configurações mais corretas do IMHO e parece que está indo bem, enquanto o outro sem muito tráfego ainda tem erros aqui e ali.
Em resumo:
- Eliminamos a parte ativa do MUX (o retimer FC).
- Estamos colocando os SFPs de longa distância no próprio equipamento final.
- Apenas para ter certeza de que compramos novos cabos monomodo para conectar o equipamento final à parte passiva restante do MUX.
- Agora estamos testando várias configurações de longa distância.
É quase magia negra. Tudo o que acontece é principalmente empírico, ninguém parece ter uma idéia de quais são os motivos exatos para fazer algo. ("Tentamos isso, e não funcionou, depois tentamos e funcionou, por isso continuamos com isso." Mas ninguém realmente sabe o porquê.)
Vou mantê-lo atualizado.
Relatório de Progresso # 2
Temos os novos lasers para um dos tecidos em garantia. É ultra limpo, mesmo em 4GbFC.
Eles estão transmitindo com aproximadamente 2mW (3dBm), enquanto os outros estão apenas com 1,5mW (1,5dBm), embora isso deva realmente ser suficiente.
O outro tecido (onde os lasers estão aparentemente ok) ainda produz um ou dois CRCs com pouca frequência.
O uso sfpshow
do SFP produzindo os erros reais de RX mostra
Status / Ctrl: 0x82 Sinalizadores de alarme [0,1] = 0x5, 0x40 Avisar sinalizadores [0,1] = 0x5, 0x40
Agora vou ter que descobrir o que isso significa. Não tenho certeza se estava lá antes.
Bem, primeiro vou clarear minha cabeça com uma semana de férias. 8-)