Eu tenho um pequeno servidor Ubuntu rodando em casa, com 2 discos rígidos. Existem dois ataques de software (raid1) nos discos, gerenciados pelo mdadm, que considero irrelevantes, mas que são mencionados de qualquer maneira.
Ambos os discos rígidos são da Western Digital e são usados há cerca de 2 anos, quando um deles começou a fazer barulhos de cliques e morreu. Achei que talvez fosse natural depois de dois anos, então comprei um novo e ressincronizei os arrays de ataque. Após cerca de um mês, a outra unidade também morreu.
Não fiquei desconfiado, já que os dois discos foram comprados ao mesmo tempo, não é tão surpreendente ver os dois próximos um do outro, então comprei outro.
Até o momento, duas unidades antigas falharam e duas novas no sistema. Após um mês, uma das novas unidades morreu. Foi quando começou a ficar desconfiado. Desde que o PC foi montado a partir de partes realmente antigas (acho que o AthlonXP), achei que talvez o controlador SATA da placa-mãe seja o culpado. É claro que você não pode trocar as peças facilmente em um PC antigo como este, então comprei um sistema inteiro, novo MB, nova CPU, nova RAM. Retornou a unidade que falhou, pois estava na garantia, e a substituiu.
Portanto, são 2 unidades com falha das antigas e 1 unidade com falha das novas. Sem problemas, por 1 mês. Depois que os erros começaram a aparecer novamente em / var / log / messages, e o mdadm estava relatando falhas na matriz de ataques. Comecei a arrancar meu cabelo. Tudo é novo no sistema, é o terceiro disco rígido novinho em folha, simplesmente não é possível que todos os novos discos que eu comprei estavam com defeito.
Vamos ver o que ainda é comum ... os cabos. Tudo bem, vamos substituir os cabos SATA. Pegue o disco rígido de volta, sorria para o cara no balcão e diga que eu sou realmente azarado. Ele substitui o disco rígido. Chego em casa, passa um mês e um dos discos rígidos falha novamente. Eu não estou brincando.
Dois dos novos discos rígidos falharam. Talvez seja um bug no sistema operacional. Vamos ver o que diz a ferramenta de teste do fabricante. Baixe a ferramenta de teste, grave-a em um CD, reinicie e deixe o teste do disco rígido da noite para o dia. O teste diz que a unidade está com defeito e eu devo fazer backup de tudo, se ainda puder. Não sei o que está acontecendo, mas não parece um problema de software, algo definitivamente está debochando nos discos rígidos.
Devo mencionar agora que todo o sistema está em uma caixa de sapatos. Como existe um monte de coisas "monte seu próprio gabinete ikea", pensei que não deveria haver nenhum problema em jogar a coisa em uma caixa e guardá-la em algum lugar. A caixa é bem ventilada, mas pensei que talvez as unidades estivessem superaquecendo. Não há outra resposta possível para isso. Então, peguei o disco rígido de volta e o substituí (pela 3ª vez) e comprei coolers de disco rígido.
E agora, ouvi o som da desgraça. clique clique whizzzzzzzzz . SSH na caixa:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
saída dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Recapitular:
- Sem possibilidade de superaquecimento
- 6 unidades falharam, 4 delas foram novas. Não tenho certeza agora que os dois originais foram defeituosos ou sofreram a mesma coisa que os novos.
- Não há nada comum no sistema, além do sistema operacional que é o Ubuntu Karmic agora (iniciado com o Jaunty). Novo MB, nova CPU, nova RAM, novos cabos SATA.
- Não, os pequenos orifícios no disco rígido não estão cobertos
Estou chorando. Sério. Não tenho o rosto para retornar à loja agora, não é possível que quatro unidades falhem em menos de quatro meses.
Algumas idéias que tenho pensado: É possível que eu estrague alguma coisa ao particionar e ressincronizar as unidades? Pode ser tão ruim que destrói fisicamente a unidade? (como a ferramenta fornecida pelo fornecedor diz que a unidade está danificada), particiono com o fdisk e uso o mesmo tamanho de bloco para as partições raid1 (verifico o tamanho exato dos blocos com o fdisk -lu)
É possível que o kernel do Linux ou mdadm, ou algo que não seja compatível com essa marca exata de discos rígidos, os debata?
É possível que seja a caixa de sapatos? Tente colocá-lo em outro lugar? Agora está sob uma prateleira, então a umidade também não é um problema. É possível que um gabinete normal de PC resolva meu problema (então vou me matar)? Eu vou tirar uma foto amanhã.
Eu sou simplesmente amaldiçoado?
Qualquer ajuda ou especulação é muito apreciada.
Edit : A régua de energia é protegida contra sobretensão.
Edit2 : Eu me mudei entre esses 4 meses, então a possibilidade da causa ser eletricidade "suja" nos dois lugares é muito baixa.
Edit3 : Eu verifiquei as tensões no BIOS (não podia emprestar um multímetro), e todas parecem corretas, a maior discrepância está nos 12V, porque está fornecendo 11.3. Eu deveria estar preocupado com isso?
Edit4 : Coloquei a PSU do meu PC de mesa no servidor. O BIOS relatou leituras de tensão muito mais precisas e também reconstruiu com êxito o array raid1, que levou cerca de 3-4 horas, então me sinto um pouco positivo agora. Obterá um novo PSU amanhã para testar com isso. Além disso, anexando a imagem sobre a caixa: (desconsidere a 3ª unidade)