Decifrando mensagens syslog mpt2sas contínuas

15

Sumário

Eu recebo essas mensagens enigmáticas no syslog desde que instalei um novo hardware e não consigo descobrir qual é o problema, se é sério ou o que fazer.

Eles são do novo SATA HBA e seguem um padrão. Receberei várias da primeira mensagem, seguidas por várias da segunda mensagem, de 5 a 30 segundos depois. Eles vêm em blobs que são todos registrados no mesmo segundo e a quantidade exata de cada um varia entre 2 e 35. Pode levar minutos ou horas entre as aparências das entradas.

Exemplo das duas mensagens:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Sempre é sempre 0x31120303 seguido por 0x31110d01.

mpt2sas é o driver do adaptador de barramento de host SATA que estou usando, mas o conteúdo do erro é excessivamente enigmático. Não me diz qual é o problema, com que disco ou porta está ou qual é a gravidade.

Hardware

Supermicro X9SCL com um Xeon E3-1220 e 8 GB de RAM.

O HBA SAS / SATA Supermicro AOC-USAS2-L8I SAS / SA8 baseado em LSI SAS2008 conectado a um conjunto de bandejas de discos Supermicro CSE-M35T-1B . Ele possui três Western Digital WD30EZRX e dois Segate ST3000DM001 conectados a ele. Todas as unidades de 3 TB (exatamente o mesmo número de setores). Não há expansores de porta em uso.

O HBA, as bandejas de disco e 4 das unidades são novos. Um dos WD30EZRXes está há meses, não teve problemas com ele. Se ele já estivesse conectado ao controlador Intel SATA integrado anteriormente, o movesse para os compartimentos de unidade com essa nova configuração.

Teve problemas com o HBA, precisando redefinir com freqüência e obtendo um desempenho realmente ruim. Atualizei o firmware / BIOS para "Phase 12", a versão mais recente disponível da Supermicro e alterei o tipo para IT (ou seja, passagem, de IR para ataque integrado desde que eu usaria todo o ataque de software): 2008IT12.FW. Essa atualização esclareceu todos os problemas anteriores e não comecei a receber as mensagens acima até mais tarde (veja abaixo).

Os quatro primeiros discos que adicionei estão todos na primeira porta SFF-8087 (dividida em 4 cabos SATA). O disco mais recente que adicionei está na outra porta, se isso importa.

O único outro disco no sistema contém o sistema operacional e é um SSD Intel de 80 GB mais antigo conectado ao controlador SATA integrado.

Programas

Ubuntu 11.10 (onírico). Servidor Linux 3.0.0-14 x86_64. Usando o driver mpt2sas que acompanha o sistema operacional.

Tentando construir uma matriz RAID6 usando o Linux md com esses cinco discos. Começou com uma matriz degenerada de 3 discos, os dois Segates e uma das novas unidades WD. Isso foi rápido e correu muito bem, nenhuma mensagem nos logs após a atualização do firmware. Enquanto isso, ainda estou usando o disco WD antigo na porta 0 do mesmo controlador.

Adicionado o outro novo disco WD à matriz. A reconstrução começou e agora estou recebendo essas mensagens no syslog periodicamente. Não sei quanto tempo leva para adicionar um disco à matriz, mas o tempo estimado (cat / proc / mdstat) varia de milhares a dezenas de milhares de minutos, muito mais tempo do que os três primeiros discos. Entendo que os discos WD são muito mais lentos; Eu tenho modelos diferentes para reduzir as chances de várias falhas de disco, e esses eram os dois modelos mais baratos de 3 TB.

Notas

O SMART não relata nenhum problema em nenhum disco. Não há erros registrados em nenhum disco e nenhuma das estatísticas de falha está perto do limite.

As mensagens registradas só começaram a aparecer depois que adicionei o último disco, o que sugere que um pode estar com um problema, mas não tenho mais nada apontando para isso.

Encontrei um arquivo de cabeçalho que parece corresponder às mensagens de log desse driver. A primeira mensagem parece ser um cancelamento (código 12) para um "subcódigo" 0303 que não está listado. A segunda mensagem é uma redefinição (código 11) por um motivo que também não está claro. Se eu pudesse determinar o que 0303 e 0d01 significam, isso seria realmente útil.

Eu sei que 4 discos em um RAID6 de 5 discos são uma matriz incompleta. Estou planejando copiar o conteúdo do disco antigo para a matriz assim que concluir a integração do 4º disco e adicionar o disco antigo à matriz também.

— Chris Smith
fonte

5

Provavelmente, sua melhor aposta é um problema de hardware em algum lugar entre seus discos e até e incluindo seu controlador sas raid. Eu recomendo tentar:

Execute quaisquer ferramentas de diagnóstico do (s) fornecedor (es), se estiverem disponíveis
Verificar / reinstalar / substituir cabos
retire os componentes de hardware e troque o hardware da cadeia que conecta os discos ao seu controlador RAID, incluindo o próprio controlador (ou seja, para você, tente algo diferente do RAID integrado na placa-mãe).

Eu tive um em cada dois Dell PowerEdge R515 idênticos, fornecendo mensagens muito semelhantes (logs periodicamente preenchidos com mensagens mpt2sas0, embora eu não possua os códigos numéricos exatos). O diagnóstico inicializável da Dell os considerou "erros de hardware" e a substituição do backplane RAID sas resolveu o problema.

Quando eu estava investigando, não consegui encontrar um recurso abrangente sobre o significado de vários códigos de erro mpt2sas0. Eu suspeito que eles podem até ser específicos de fornecedores de hardware (alguém que sabe mais sobre SAS precisa confirmar ou negar isso). Portanto, seus códigos de erro podem significar algo amplamente diferente, mas se o SMART estiver limpo, é difícil imaginar outras boas razões para o mpt2sas0 relatar códigos de erro.

Esses erros podem ser muito graves. Meu R515 funcionou aparentemente bem com essas mensagens por uma semana com um ataque de software Ubuntu Linux de 12 discos 6, mas, de repente, ejetou todos os 12 discos da matriz como quebrados (!)

Também no meu caso, o SMART para todos os discos estava completamente limpo. Uma boa verificação é um teste inteligente de autodiagnóstico: smartctl -t long /dev/sdXe verifique os resultados cerca de um dia depois com smartctl -l selftest /dev/sdX. Se estiver tudo bem, o teste deve dizer Completede a LBA_first_errcoluna deve estar vazia.

— Rickard Armiento
fonte

Nota: o controlador RAID (HBA realmente) já é uma placa separada. O controlador SATA integrado funciona bem. Eu tenho um cabo SFF-8087 de reposição em ordem, deve estar aqui amanhã. Esse é o meu principal suspeito neste momento.

— 22412 Chris Smith

O cabo ruim foi o problema! Troquei os dois (duas portas SFF) por alguns cabos de qualidade superior e não tenho mais problemas desde então! Estou aceitando sua resposta, já que é a mais longa e sugere um cabo incorreto. PS: Eu definitivamente fiz os longos testes SMART; sem problemas em nenhum dos discos.

— 27412 Chris Smith

É bom saber que você encontrou o problema. Obrigado pela aceitação.

— Rickard Armiento

Para mim, é realmente estranho que eu tenha encontrado esse problema antes também no caso da plataforma Dell PowerEdge. Mesmo resultado o problema foi com cabos ...

— Mazeryt

3

Uau, uma pergunta difícil.

Isso parece indicar que 0x31120303 é uma redefinição de barramento devido a um de seus dispositivos estar sob carga pesada. Também diz que você não precisa se preocupar com isso. (Haha, sim, certo.)

Isso indica que essas mensagens de log estão acontecendo porque um dos seus dispositivos está demorando muito para responder aos comandos. Isso diz a mesma coisa e também indica que ocorre sob carga pesada.

Embora essa não seja uma resposta completa, espero que você aponte uma direção útil.

— Michael Hampton
fonte

Vi algumas dessas postagens, mas nunca consegui encontrar a mensagem exata. Acabou sendo um cabo SFF-8087-> SATA ruim. Obrigado pela ajuda!

— 27412 Chris Smith

0

Isso significa que você tem algum erro no disco, é um disco SATA em um controlador SAS da LSI e, devido ao erro, todas as solicitações pendentes foram abortadas.

Na maioria dos casos, há um erro médio no disco, que é o gatilho para esse erro. Esse erro por si só não significa um erro médio e você precisará verificar os logs em busca de outras dicas para descobrir qual é a origem da falha no disco original.

Versão um pouco mais elaborada em: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Baruch Even
fonte

Postagem interessante, obrigado por compartilhar! O SATA é um protocolo de baixa qualidade, mas os discos são baratos e fazem o que eu preciso. A mensagem não reapareceu desde que substituí o cabo com defeito.

— 28414 Chris Smith

1

Mais decodificação de LSI loginfo podem ser encontrados através de um utilitário que eu criei para decifrá-lo: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Mesmo