Eu tenho um PC reaproveitado rodando como um servidor. Foi montado no início de 2014 e contém um processador Intel Core i7-4770 em uma Gigabyte Z87-HD3. Funcionou de forma bastante confiável até o início de 2017, quando começou a congelar intermitentemente (a cada poucas semanas ou meses). Nenhum registro do Kernel, nem mesmo os dados de falha do repositório de páginas ou o netconsole produziram algo significativo. A tela física está em branco, a rede não responde, as métricas com granularidade de 10s não mostram correlação para carregar na CPU, na RAM ou no disco. Todos os LEDs e unidades ainda estão funcionando, mas obviamente não há mais IO. A RAM foi testada e é verificada boa, sem espionamentos espúrios ou qualquer coisa que indique um problema de hardware intermitente. Apenas dura congelando.
Agora, para a parte muito interessante: Uma vez que o sistema entra nesse estado, o botão de reset físico pára de funcionar completamente. Depois que eu pressiono, nada acontece. Definitivamente funciona fisicamente, pois funciona 100% quando o sistema não está nesse estado. Eu verifiquei voltagens da PSU com um multímetro e eles estão bem. Eu ainda posso redefinir o servidor pressionando o botão de energia por 5s e ele inicializa bem depois disso.
Então, eu estou praticamente perdendo o que acontece aqui e qual peça de hardware é a culpa. Eu tenho analisadores lógicos e eu poderia ter acesso a escopos USB, mas nada que amostras acima de 100MSPS, por isso não posso sondar os ônibus reais. Eu ficaria muito grato por qualquer insight do que poderia estar acontecendo.