exceção de redefinição do hardware Emask 0x50 SAct 0x0 SErr 0x4090800 ação 0xe congelada

8

Seguinte situação:

Um produtivo servidor Linux Debian 7 com kernel 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

Fabricante: Supermicro Nome do produto: X10SLL-F Versão:1.02

Controlador SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2x SSD, 2x disco rígido

cada unidade pode executar Sata Rev3 (6.0Gb / s)

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

As mensagens do kernel sugerem (pelo menos para mim) um problema com todas as 4 unidades, o que me leva a acreditar que é o controlador sata que pode estar com defeito.

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

O que eu já descobri (ou acredito que tenha descoberto)

Os comandos SECURITY FREEZE LOCKe DEVICE CONFIGURATION OVERLAYnão são importantes para o problema.

Ao ler cerca de 20 relatórios de erros e muitas documentações, alguns vinculados sugeriram desativar o NCQ, o que eu fiz.

Primeiro para um dispositivo, depois de esperar 1 dia para verificar se o erro se repete, aconteceu novamente e eu o desativei para todos os 4 dispositivos

echo "1" >/sys/block/sdc/device/queue_depth

Nenhuma mudança óbvia na situação.

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

Outros sugerem um cabo SATA ou até mesmo uma incompatibilidade entre placas + unidades.

No entanto, como parece que eu tenho o problema em uma unidade e isso preenche todos os 4, ou tendo o problema diretamente em todos os 4 dispositivos, não consigo identificar o problema ainda mais.

Como este é um servidor de produção, é possível colocar este servidor em manutenção (também conhecido como alterações nos parâmetros do bios / kernel), mas eu gosto de impedir isso, se possível.

De acordo com o hoster, isso pode estar relacionado ao gerenciamento de energia:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy

Antes da alteração, isso foi definido como max_performance.

Isso também não ajudou.

Valores inteligentes dos HDDs / SDDs estão OK, nada muito óbvio.

Observe que o valor UDMA parece ser 33 agora.

Na inicialização do servidor, estavam os valores de velocidade do link sata:

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

A situação pode ocorrer com alta carga apenas nos HDDs, ainda não testei, pois isso obviamente afetaria o desempenho do servidor.

Não há carga nos SSDs, eles são montados, mas não são usados por nenhum dos processos.

A RAM é ECC, tanto quanto eu posso dizer.

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

Informe-me se posso fornecer informações adicionais, pois não tenho as idéias do que fazer em seguida.

— Dennis Nolte
fonte

perguntando diretamente ao fornecedor supermicro, é possível que eles possam ajudar se o hoster não o fizer.

— Dennis Nolte

1

Observe que o sistema está renegociando a 1,5 Gbps. Tente forçar 1,5 Gbps e veja se isso torna o sistema estável. É um ponto de dados. Tente askubuntu.com/a/146290/11751 para uma breve descrição de como fazê -lo.

— um CVn

4

O que o servidor experimenta é basicamente uma renegociação SATA a uma velocidade de link mais baixa, após algum problema na comunicação com as unidades.

Esses fatores podem estar em ação aqui (ordenados por probabilidade)

operações IOPS de latência muito alta (por exemplo: causadas pela coleta de lixo do controlador SSD) resultando em tempo limite do comando SATA. Sua unidade suporta o comando SATA Trim? Se sim, tente executar fstrim /. Isso muda alguma coisa?
Placa-mãe / memória incorretas: a sua memória ECC está protegida? Caso contrário, e se puder, execute uma sessão de teste estendida (2+ horas) memtest86 +
incompatibilidade de drivers de hardware / software
Controlador SATA ruim: embora seja improvável, você não pode excluí-lo completamente
Cabos / unidades SATA incorretos: como todas as quatro unidades causam problemas, é muito improvável

— shodanshok
fonte

o (s) ssd (s) não estão atualmente em uso, parece que o ECC está sendo usado. de dmidecode -t17: Largura total: 72 bits Largura de dados: 64 bits

— Dennis Nolte

3

De acordo com o suporte da Supermicro, o defeito está na placa:

Citar:

This board may need ECO 16238 update.

— Dennis Nolte
fonte