Para um projeto, temos 50 servidores, todos equipados (geralmente) com o mesmo hardware. O problema que temos aqui é muito sério e acontece em todas as máquinas. Apesar de muito esforço e do contato com os fabricantes e os desenvolvedores de software, todos apontam um para o outro e até se recusam a me dar uma pista sobre o que está acontecendo.
Primeiro, deixe-me descrever a configuração. Este é o hardware 'servergrade'. Para minha primeira experiência, servergrade é a maior decepção da minha vida.
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540 (incorporado na placa-mãe)
- Caixa 1U personalizada ou caixa original SuperMicro
- PSU de servidor de 480 watts ou PSU original SuperMicro de 200 watts
- SSD Samsung Evo 850 de 500 GB
- DDR4-2133 ECC ou NÃO ECC de 32 GB (mas não misturado no mesmo servidor)
- GPU Asus GT730 DDR3 de 4 GB
- A GPU é montada com uma placa riser PCIe (sem fita), sem nome da China ou do SuperMicro original
Executando no sistema - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - Tarefas intensivas de execução de GPU da VM - Este sistema é estoque, não há over / underclocking
Sintomas - Aleatório BSOD 0x09c (também conhecido como Machine_Check_Exception): às vezes o sistema é executado por uma semana sem problemas, às vezes em falhas após apenas 10 minutos, mas na maioria das vezes é executado por algumas horas.
Já experimentado / verificado:
- BIOS atualizado para a versão mais recente (acho que agora isso melhorou o tempo para o sistema ficar estável, mas isso poderia ter sido aleatório).
- Windows atualizado para a versão mais recente.
- VMWare atualizado para a versão mais recente.
- Trocou todos os componentes e tentou todas as opções diferentes, até tentou uma ATU PSU de mesa e SSD M.2.
- Instalou todos os sistemas do zero com o Ubuntu. Eu não estou familiarizado com o Linux e nunca vi um BSOD do Linux e ainda não o vi, pois os sistemas de servidor não têm cabeça e tentei isso no DC. RESULTADO: o sistema travou e, após a reinicialização, o Linux relatou uma falha no XORG (relacionada à GPU).
- Alteração da configuração da GPU no BIOS para 'Acima de 4G', o restante do BIOS é o padrão de fábrica.
Também informativo:
- Os sistemas estão localizados em um datacenter. Temperatura, ar, energia e rede são ótimos.
- As temperaturas estão bem abaixo do máximo de fábrica
- Temos exatamente a mesma configuração de software em execução em computadores de mesa (com hardware de mesa). Esse sistema pode funcionar bem com 1 de 100 PCs travando todos os meses.
- Entrei em contato com o VMWare, digamos que este é um problema de hardware
- Entrei em contato com o SuperMicro, eles não dizem nada realmente, exceto algumas coisas e já tentaram e também que isso ainda pode ser um problema de software.
Estamos desesperados aqui. O aplicativo que executamos com sorte é meio redundante. Se um servidor e suas VMs caírem, esse não é um problema; outros servidores assumirão a carga em 5 minutos, mas, nesse ritmo, sou obrigado a ficar on-line o dia todo para reiniciar os servidores.
Eu tenho um grande conhecimento de hardware, mas isso vai além, eu pesquiso isso o dia todo por mais de um mês tentando todo tipo de coisas diferentes. O fato de essas placas-mãe serem usadas com provedores de hospedagem em larga escala me faz suspeitar que a placa em si esteja correta. Definitivamente, esse não é um problema específico de hardware para o RMA, pois todas as 50 placas têm os mesmos sintomas. A única coisa diferente conosco é a GPU. Isso em combinação com o experimento Linux me faz suspeitar que isso é definitivamente algo na pista PCIe. A GPU em si é estável nos mobo de desktop. Apesar de sua grande capacidade de memória, esta é uma pequena GPU que não consome muita energia. Eu suspeitaria das placas riser chinesas, mas também usamos risers certificadas SuperMicro e elas não mostram nenhuma melhoria.
Estou muito desesperado para encontrar uma solução aqui. Isso começará com a determinação da causa exata. Estamos dispostos a pagar uma boa recompensa a um especialista que possa analisar alguns lixões e nos fornecer mais detalhes (ou melhor ainda, uma solução).
Atenciosamente,
Simon