Por que cinco iMacs diferentes desenvolveram partições corrompidas do OS X quando as unidades físicas estão boas?


9

Eu sou um técnico do meu distrito escolar local e estamos tendo alguns problemas com nosso laboratório de multimídia iMac. Nos últimos nove meses, 5 dos 22 iMacs sofreram danos no sistema de arquivos. O único recurso para essas máquinas foi eliminar completamente a partição do OS X e começar de novo (com restauração apropriada do Time Machine).

Aqui está a lista de por que eu sei que é corrupção do sistema de arquivos:

  • O iMac não inicializa o OS X. Vi-o parar no "throbber", na barra de progresso ou apenas no logotipo da Apple.

  • A montagem do disco do iMac via Target Disk Mode (adoro esse recurso) é bem-sucedida, mas apenas para a partição Bootcamp. A partição do OS X falha ao montar.

  • Uma verificação do disco revela que a partição do OS X precisa ser reparada (vi entradas inválidas de irmãos, filhos órfãos etc.). A tentativa de reparar o disco falha. Esta última tentativa (ontem) disse que as árvores do catálogo B não podiam ser reconstruídas. Eu deveria ter feito anotações mais completas sobre o que foi dito todas as vezes, mas todas as vezes até essa última eu assumi que era um tipo estranho de evento em um milhão. Um acaso

  • A tentativa de reparar ou reconstruir as unidades com o Drive Genius 3 também falha. Até agora, 98% dos arquivos do usuário foram recuperáveis ​​por meio do Data Rescue 3. O disco rígido físico não parece estar falhando (a recuperação de arquivos da unidade não trava ou "beachball" ", a unidade não aparece e desaparece no Utilitário de Disco, o Finder permanece responsivo etc.)

  • Normalmente, eu atribuiria isso a uma série de discos rígidos. Aconteceu ser o cara azarado que comprou uma série ruim de iMacs, certo? Aqui é onde as coisas começam a ficar interessantes. Apresento a você a lista de esquisitices:

  • As unidades são verificadas como boas via SMART

  • A RAM faz check-out
  • Após excluir e recriar a partição (e reinstalar o OS X), todos os problemas desaparecem.
  • A corrupção não aconteceu no mesmo Mac duas vezes
  • O Bootcamp é instalado na mesma unidade e funciona antes, depois e durante a corrupção no lado do Mac.
  • A partição Bootcamp não teve esse problema em QUALQUER dos iMacs

Além disso, para descartar o óbvio:

  • Não houve quedas ou quedas de energia

  • Duvidamos seriamente de um vírus, pois os problemas de funcionamento aparecem em qualquer lugar simultaneamente (duas máquinas foram desativadas ao mesmo tempo há cerca de um mês) a meses. Além disso, os documentos do usuário são restaurados após a reformatação, portanto, seria de se supor que, se fosse um programa malicioso, o Mac continuaria falhando repetidamente.

  • As máquinas estão em uma área climatizada

  • Não foi o mesmo usuário afetado

  • Às vezes, o problema ocorre após um desligamento forçado inevitável (o que ocorre com pouca frequência. Essas máquinas não estão sendo excessivamente desligadas incorretamente. Somente o que você esperaria de um Mac Lab executando multimídia cinco dias por semana), outras vezes -o azul

O software usado com frequência inclui:

  • iPhoto
  • iDVD
  • iMovie
  • Safári

As máquinas também são carregadas com o Parallels 5, que carrega a partição Bootcamp em uma VM. O Parallels foi configurado através do assistente padrão, sem configurações estranhas ou hacks.

E por último mas não menos importante, as especificações:

  • iMac 10,1 (21,5 polegadas)
  • Unidades de estoque
  • OS X Snow Leopard (atualizações mais recentes)
  • Memória de estoque
  • Associado à nossa infraestrutura do Active Directory
  • Sistema de arquivos HFS + (sem distinção entre maiúsculas e minúsculas, o padrão para OS X Snow Leopard)
  • Nenhuma manutenção de unidade incomum. programas. O Drive Genius foi carregado ontem à tarde (após se recuperar da falha mais recente) para executar uma verificação em todos os iMacs, mas não foi instalado anteriormente. Todos os Macs, tanto os que falharam no passado quanto os que nunca falharam, passaram com cores vivas.

TL; DR: A partição do OS X foi corrompida em cinco iMacs diferentes, mas as unidades físicas estão corretas. PORQUE!?!?!


Off Topic: 8b: Você pode usar Shift + Enter para inserir quebras de linha nas caixas de comentários. Também ouvi dizer que existem plugins de navegador (scripts de usuário?) Por aí que invertem o papel de enter e shift-enter, portanto, o enter insere uma quebra de linha e o shift-enter envia o comentário.
Jason Salaz

+1 pergunta bem documentada. Você já considerou que poderia ser um ato dos estudantes?

Como o iMac 10,1 é mapeado para o iMac {early | mid | late} 20YX para facilitar a visualização do lado do hardware? Se você substituir os #desktopcomputers por um dos números de série, support.apple.com/manuals/#desktopcomputers receberá o nome descritivo dos seus iMacs.
Bdm

Respostas:


6

O HFS Plus (HFS +) é um sistema de arquivos frágil e um pouco desatualizado. Se você pesquisar no Google, encontrará muitos relatórios de corrupção do sistema de arquivos.

Reiniciar sem desmontar o sistema de arquivos é a melhor maneira de corrompê-lo. Isso acontece quando o mac congela por algum motivo (no meu caso, é a placa de vídeo nvidia) ou falha de energia.

Aqui estão algumas dicas, para que o IMHO diminua a chance de corrupção do sistema de arquivos:

  1. Quando o sistema congelar, tente reiniciar a partir do ssh. Quando o subsistema gráfico do meu mac freeses, ele ainda está acessível via SSH - tente abrir a conexão ssh da sua rede e reiniciá-la. Você pode usar o Apple Remote Desktop (€ 62) para esta tarefa. Você deve habilitar o acesso ssh primeiro.

  2. Faça diskutil verifyVolume /periodicamente. Sim, mesmo que o HFS + seja um sistema de arquivos com registro em diário, a corrupção é possível. Você pode usar o Apple Remote Desktop para executar isso em todos os computadores da sala de aula ao mesmo tempo.

  3. Use vários volumes. O uso de vários volumes deve reduzir a chance de corrupção. A divisão /de /Users/deve facilitar a restauração (os usuários serão corrompidos). Observe que isso provavelmente pode complicar as coisas com o Bootcamp.

  4. Monte partições com opções que reduzem a gravação. A montagem de partições com noatimeopção deve reduzir a gravação. Por padrão, sempre que um arquivo é acessado, seu registro de data e hora é "tocado".

  5. Verifique se não há tentativas de montar a partição HFS + de outros sistemas operacionais. É possível que alguém esteja iniciando uma distribuição Linux a partir de usb / dvd e montando /no modo rw ou jogando com as configurações do diário?

Espero que minha resposta seja útil.

PS: a corrupção geralmente é gradual, não repentina. Existe a possibilidade de que algo específico esteja causando isso, software ou fluxo de trabalho. Minha mente está no Parallels 5, mas deve corromper o volume do bootcamp, não o do MacOS. A pesquisa na KB não revela nada de útil.

PPS: é frágil porque não possui um sistema real para corrigir a corrupção dentro de um arquivo. Um diário registra transferências e tenta copiar novamente os dados para retornar o sistema de arquivos a um estado consistente, mas se o arquivo perdido for vital (como dados reais da estrutura do sistema de arquivos), não haverá recurso. De fato, como o arquivo de catálogo (que lista todas as informações dos dados lógicos) é armazenado como um arquivo, se for corrompido em determinados locais, todo o sistema de arquivos será processado como lixo inútil ou lixo parcialmente tendencial no caso de estar corrompido e ocorre a repetição de um diário, o que faz com que ele reestruture o sistema de arquivos de uma maneira que não seja consistente com os dados (por exemplo, o arquivo aeb é de 1 MB e 2 MB, respectivamente, mas a reprodução muda para 2MB e 1MB, resultando em metade do conteúdo de B estando dentro de A).


2
Qualquer sistema de arquivos terá problemas considerando as circunstâncias. Mas "frágil" e "um pouco desatualizado"? Realmente? Um pouco desatualizado em minha mente não é diário. E esse não é o caso do HFS +.
11Jason Salaz

Se o sistema de arquivos fosse frágil, todos os macs não teriam problemas? Instalações com centenas de macs que auditam desconexões abruptas de energia e um cronograma contínuo de inicializações seguras, os reparos do sistema de arquivos cortam esse tipo de coisa pela raiz.
Bdm

+1 para o HFS Plus (HFS +) é um sistema de arquivos frágil. Eu experimentei esse cenário exato com dois discos rígidos. O Windows não é afetado, o hfs + não pode ser reparado. Recriando partição e reinstalar o OS X funciona muito bem
Clint Boa

2

Coisas que poderiam fazer isso em cima da minha cabeça ...

você disse que não teve picos de energia ou quedas de energia. Como você está confirmando isso? Tivemos uma sala de aula em que as fontes de alimentação do PC estavam explodindo aparentemente aleatoriamente. Precisávamos que a equipe de manutenção conectasse um medidor de monitoramento ao circuito e descobrimos que a tomada está tendo enormes picos de tensão.

A memória não está encaixada corretamente e corrompe os dados.

Conduza os cabos soltos.

discos rígidos marginais que possuem um conjunto ruim de setores, mas não são ruins o suficiente para acionar alertas ou procurar setores defeituosos.

Algo no lado do Windows via bootcamp está modificando a unidade de uma maneira que ela não gosta. Proteção de cópia? Drive utilitários?

Você disse que está em um laboratório. O que os alunos estão executando? Você está monitorando ou bloqueando o que pode ser executado que poderia estar fazendo isso?

Você disse que isso parece ser aleatório, não há duas máquinas com isso acontecendo seguidas. Isso me levaria a suspeitar que um aluno ou grupo de estudantes está causando o problema ou que existe um problema de energia aleatório no laboratório. Existe uma maneira de rastrear quem usou as máquinas pela última vez para ver se esse problema parece seguir magicamente um de seus usuários?


Não usamos nenhum equipamento de monitoramento de energia, não. Simplesmente sair do relatório dos professores da escola secundária sobre esse. editar GAH! Nota para si mesmo: a tecla Enter não cria uma nova linha no modo de comentário.
EightQuarterBit

Pode querer tentar isso. Também não havia indícios de um problema desse tipo na sala de aula, mas o diretor de TI era formado em engenharia elétrica na faculdade e mandou verificá-lo. Ele fez as contas e descobriu que eles estavam tendo picos periódicos de milhares de volts ...
Bart Silverstrim

Fizemos um teste de RAM em cada máquina que teve esse problema, todas aprovadas. Você pensaria que, se os cabos da unidade estivessem soltos, o problema teria se manifestado na mesma máquina algumas vezes no mesmo iMac, em vez de em vários iMacs. Além disso, se fosse um cabo de unidade solto, é estranho que não tenha ocorrido nas partições do Bootcamp.
EightQuarterBit

É possível que as unidades sejam realmente marginais, mas eu tenho dificuldade em comprar essa. Eu verifiquei, verifiquei novamente e triplamente essas unidades. Eu usei o Utilitário de Disco da Apple, bem como o Drive Genius 3, para digitalizar o ranho dos discos. Além disso, nunca vi uma unidade marginal sem ter pelo menos alguns indicadores no SMART. Vi discos rígidos "ruins" que passaram no SMART, mas eles ainda tinham altas contagens de setor realocados e outros enfeites ao usar um utilitário SMART. Essas unidades? Nada.
EightQuarterBit

Pensei no Windows mexendo com a partição Mac, e ainda não a descartei. No entanto, o fato de o driver de bootcamp da Apple montar apenas partições HFS + como somente leitura parece impedir isso. Não estamos usando nenhuma ferramenta de disco ou utilitário do tipo "deep freeze" no lado do Windows.
EightQuarterBit

1

Você considerou uma verificação periódica das máquinas? Você pode agendar facilmente passes semanais de verificação do fsck (até descobrir por que a corrupção está acontecendo) e depois mensalmente para manter um controle sobre as coisas.

Com um sistema de arquivos com diário, são necessários alguns maus tratamentos repetidos para que os macs se degradem a ponto de não inicializar. Mesmo software ruim não grava no sistema durante a inicialização, então eu suspeitaria que algo está claramente errado. Nos macs que são desligados de maneira limpa e chamam atenção sempre que pequenos erros no sistema de arquivos são reparados (sempre que um mac é reiniciado e o fsck não está sendo executado no modo preen é um sinal de problema no horizonte).

Com uma implantação de 25 macs, você pode facilmente passar algum tempo sendo proativo sobre as verificações do sistema de arquivos e ver quais não estão sendo desligadas de maneira limpa, configurando um servidor syslog ou outro sistema de auditoria centralizado.


0

Eu consideraria a atividade estudantil. Se você está executando o bootcamp e o OS X, aposto que os alunos estão travando o lado do Mac para executar o boot camp, porque eles não são pacientes. Esse também pode ser o caso se houver um armário de tela.

Eu sugiro:

  1. Remova o campo de treinamento. Em vez disso, execute uma VM em Parallels ou Virtual Box. (Descobri que o Windows XP no VirtualBox funciona muito bem.) Configure isso para que a Máquina Virtual seja imutável, armazenada localmente na partição antiga do campo de inicialização. Isso impedirá que as crianças brincem com a instalação do Windows. Redirecione o diretório pessoal para ler o diretório pessoal do Mac no servidor. (Este é um PITA a ser configurado pela primeira vez, pois abrange cerca de um zilhão de regedits)

  2. Estabeleça alguma forma de monitoramento de logon para saber quais alunos usaram quais máquinas. Isso tem a vantagem de poder identificar o mesmo garoto fazendo login em várias máquinas, geralmente fazendo isso como um favor para alguém banido. Configurei que, quando o mesmo login estava em duas máquinas, as duas máquinas foram reiniciadas.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.