Sumário
Eu recebo essas mensagens enigmáticas no syslog desde que instalei um novo hardware e não consigo descobrir qual é o problema, se é sério ou o que fazer.
Eles são do novo SATA HBA e seguem um padrão. Receberei várias da primeira mensagem, seguidas por várias da segunda mensagem, de 5 a 30 segundos depois. Eles vêm em blobs que são todos registrados no mesmo segundo e a quantidade exata de cada um varia entre 2 e 35. Pode levar minutos ou horas entre as aparências das entradas.
Exemplo das duas mensagens:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Sempre é sempre 0x31120303 seguido por 0x31110d01.
mpt2sas é o driver do adaptador de barramento de host SATA que estou usando, mas o conteúdo do erro é excessivamente enigmático. Não me diz qual é o problema, com que disco ou porta está ou qual é a gravidade.
Hardware
Supermicro X9SCL com um Xeon E3-1220 e 8 GB de RAM.
O HBA SAS / SATA Supermicro AOC-USAS2-L8I SAS / SA8 baseado em LSI SAS2008 conectado a um conjunto de bandejas de discos Supermicro CSE-M35T-1B . Ele possui três Western Digital WD30EZRX e dois Segate ST3000DM001 conectados a ele. Todas as unidades de 3 TB (exatamente o mesmo número de setores). Não há expansores de porta em uso.
O HBA, as bandejas de disco e 4 das unidades são novos. Um dos WD30EZRXes está há meses, não teve problemas com ele. Se ele já estivesse conectado ao controlador Intel SATA integrado anteriormente, o movesse para os compartimentos de unidade com essa nova configuração.
Teve problemas com o HBA, precisando redefinir com freqüência e obtendo um desempenho realmente ruim. Atualizei o firmware / BIOS para "Phase 12", a versão mais recente disponível da Supermicro e alterei o tipo para IT (ou seja, passagem, de IR para ataque integrado desde que eu usaria todo o ataque de software): 2008IT12.FW. Essa atualização esclareceu todos os problemas anteriores e não comecei a receber as mensagens acima até mais tarde (veja abaixo).
Os quatro primeiros discos que adicionei estão todos na primeira porta SFF-8087 (dividida em 4 cabos SATA). O disco mais recente que adicionei está na outra porta, se isso importa.
O único outro disco no sistema contém o sistema operacional e é um SSD Intel de 80 GB mais antigo conectado ao controlador SATA integrado.
Programas
Ubuntu 11.10 (onírico). Servidor Linux 3.0.0-14 x86_64. Usando o driver mpt2sas que acompanha o sistema operacional.
Tentando construir uma matriz RAID6 usando o Linux md com esses cinco discos. Começou com uma matriz degenerada de 3 discos, os dois Segates e uma das novas unidades WD. Isso foi rápido e correu muito bem, nenhuma mensagem nos logs após a atualização do firmware. Enquanto isso, ainda estou usando o disco WD antigo na porta 0 do mesmo controlador.
Adicionado o outro novo disco WD à matriz. A reconstrução começou e agora estou recebendo essas mensagens no syslog periodicamente. Não sei quanto tempo leva para adicionar um disco à matriz, mas o tempo estimado (cat / proc / mdstat) varia de milhares a dezenas de milhares de minutos, muito mais tempo do que os três primeiros discos. Entendo que os discos WD são muito mais lentos; Eu tenho modelos diferentes para reduzir as chances de várias falhas de disco, e esses eram os dois modelos mais baratos de 3 TB.
Notas
O SMART não relata nenhum problema em nenhum disco. Não há erros registrados em nenhum disco e nenhuma das estatísticas de falha está perto do limite.
As mensagens registradas só começaram a aparecer depois que adicionei o último disco, o que sugere que um pode estar com um problema, mas não tenho mais nada apontando para isso.
Encontrei um arquivo de cabeçalho que parece corresponder às mensagens de log desse driver. A primeira mensagem parece ser um cancelamento (código 12) para um "subcódigo" 0303 que não está listado. A segunda mensagem é uma redefinição (código 11) por um motivo que também não está claro. Se eu pudesse determinar o que 0303 e 0d01 significam, isso seria realmente útil.
Eu sei que 4 discos em um RAID6 de 5 discos são uma matriz incompleta. Estou planejando copiar o conteúdo do disco antigo para a matriz assim que concluir a integração do 4º disco e adicionar o disco antigo à matriz também.