As perturbações de um único evento não são mais uma coisa do espaço nem da aeronave; nós os vemos acontecer na superfície há mais de uma década, talvez duas até agora.
Como mencionado, porém, pelo menos em aplicativos espaciais, lidamos com problemas usando votação tripla (cada bit é realmente três e um voto de dois terços vence, portanto, se houver um que mude, os outros dois o cobrirão). E, em seguida, ECC ou EDAC , com lavadores que passam pela RAM a uma taxa maior que a taxa de atualização de evento único prevista para limpar as perturbações de evento único (aquelas que realmente pressionam os dois terços dos votos).
Então há dose total; com o tempo, o material fica radioativo demais para funcionar, então você usa material suficiente para exceder a vida útil do veículo. Não é algo com que nos preocupamos normalmente na superfície. (E latchup) O uso de três / vários conjuntos de lógica em paralelo é / foi uma maneira de tentar não precisar usar a tecnologia rad-hard tradicional e, bem, você pode descobrir como isso está funcionando.
As pessoas que costumavam saber como criar coisas para o espaço se aposentaram ou seguiram em grande parte, por isso temos vários programas que fazem lixo espacial agora. Ou tratando o espaço como produtos terrestres, em vez de tentar fazer todo mundo funcionar e ter uma reentrada e queima controlada, agora esperamos uma certa quantidade de lixo espacial em cada constelação.
Nós vemos transtornos na superfície. Qualquer cartão de memória ( DRAM ) que você compra possui um FIT, Failures In Time e qualquer chip com RAM (todos os processadores, muitos outros) também terão uma especificação do FIT (para os blocos de RAM (SRAM)). A RAM é mais densa e usa transistores menores, por isso é mais suscetível a perturbações, criadas internamente ou externas. Na maioria das vezes, não percebemos nem nos importamos, pois a memória que usamos para dados, assistindo a um vídeo etc. é gravada, lida novamente e não usada novamente antes de ficar tempo suficiente para causar transtornos. Alguma memória, como uma que possui um programa ou o kernel, é mais arriscada. Mas há muito que nos acostumamos com a ideia de apenas reiniciar nosso computador ou reiniciar / reiniciar nosso telefone (alguns telefones / marcas você precisaria remover regularmente a bateria periodicamente). Essas perturbações ou software ruim ou uma combinação?
Os números FIT para o seu produto individual podem exceder a vida útil desse produto, mas é necessário um grande farm de servidores, você considera toda a RAM ou chips ou o que for, e o MTBF vai de anos ou pedidos anteriores a dias ou horas, em algum lugar a Fazenda. E você tem ECC para cobrir o que você pode daqueles. E você distribui a carga de processamento com failovers para cobrir as máquinas ou o software que não conseguem concluir uma tarefa.
O desejo de armazenamento em estado sólido e a mudança da mídia giratória criaram um problema relacionado a isso. O armazenamento usado para SSDs (e outro armazenamento não volátil) para ficar mais rápido e mais barato é muito mais volátil do que gostaríamos e depende do EDAC, porque estaríamos perdendo dados sem ele. Eles jogam muitos bits extras e ecoam a coisa toda, fazendo as contas para equilibrar velocidade, custo e longevidade do armazenamento. Não nos vejo voltando; as pessoas querem mais armazenamento não volátil em todos os lugares, que caiba em um pacote minúsculo e não domine o preço do produto.
No que diz respeito aos circuitos normais, desde os dias iniciais do uso de transistores para circuitos digitais até o presente, passamos pela parte linear do transistor e o usamos como um comutador, batendo-o entre os trilhos com algum excesso para garantir que ele adere . Como o interruptor de luz na parede, você o move mais da metade da mola ajuda o resto e o mantém lá. É por isso que usamos o digital e não tentamos viver na região linear; eles tentaram cedo, mas falharam. Eles não podiam ficar calibrados.
Então, apenas colocamos o transistor em seus trilhos e os dois lados de um sinal se estabilizam no próximo ciclo do relógio. São feitos grandes esforços, e as ferramentas atuais são significativamente melhores do que costumavam ser, ao fazer a análise do design do chip, para ver que, por design, há margem no tempo. Em seguida, teste cada dado em cada bolacha (que e / ou após a embalagem), para verificar se cada chip é bom.
A tecnologia de chips depende muito de estatísticas baseadas em experimentos. Quando você faz um overclock de sua CPU, você está pressionando essa margem, mantendo-se dentro da taxa de clock anunciada, da temperatura etc. e suas chances são significativamente menores de ter problemas. Um processador xyz de 3 GHz é simplesmente um chip de 4 GHz que falhou em 4 GHz, mas passou a 3 GHz. As peças são classificadas em velocidade basicamente a partir de uma linha de produção.
Depois, há as conexões entre chips ou placas, e essas também estão sujeitas a problemas, e muito tempo e esforço são necessários para criar padrões e designs de placas, etc., para reduzir erros nessas interfaces. USB , teclado, mouse, HDMI , SATA e assim por diante. Bem como todos os traços no quadro. Dentro e fora do quadro, você tem problemas de diafonia; novamente, muitas ferramentas estão disponíveis se você as usar, além de experiência em evitar os problemas em primeiro lugar, mas de outra maneira em que podemos não ver os e os zeros totalmente engajados.
Nenhuma das tecnologias, nem o espaço, é perfeita. Ele só precisa ser bom o suficiente, uma porcentagem suficiente do produto precisa cobrir o tempo de vida útil esperado do produto. Alguma porcentagem dos smartphones precisa durar pelo menos dois anos, e é isso. As fundições ou tecnologias mais antigas têm mais dados experimentais e podem produzir um produto mais confiável, mas são mais lentas e podem não ser novos designs, então pronto. A vanguarda é exatamente isso, uma aposta para todos.
Para sua pergunta específica, os transistores em cada extremidade de um sinal são empurrados rapidamente através de sua região linear e inclinam-se para um dos trilhos. A análise é feita em todos os caminhos combinacionais para determinar que ele se estabelecerá antes que o relógio no final do caminho o trave, para que seja realmente zero ou um. A análise é baseada em experimentos. Os primeiros chips de uma linha de produtos são empurrados para além dos limites do design, são feitos gráficos schmoo para determinar se há margem no design. São feitas variações no processo e / ou candidatos individuais que representam os chips lentos e rápidos. É um processo complicado e alguns têm mais material, outros têm menos, funcionando mais rápido, mas usando mais energia ou mais devagar, etc.
Você as empurra para as margens também. E, basicamente, tenha uma sensação confusa de que o design é adequado para entrar em produção. A varredura JTAG / limite é usada para executar padrões aleatórios através dos chips entre cada estado travado para ver se os caminhos combinacionais são sólidos para um design. E onde há preocupações, alguns testes funcionais direcionados também podem acontecer. Testes adicionais do primeiro silício e talvez testes aleatórios para garantir que o produto seja bom. Se / quando ocorrerem falhas, isso poderá levar você a mais testes funcionais na linha de produção. É fortemente dependente de estatísticas / porcentagens. 1/1000000 de maus saindo podem ser bons ou 1/1000 ou o que for; depende de quantos você acha que produzirá desse chip.
As vulnerabilidades são as mencionadas aqui e com outras pessoas. Primeiro, o chip em si, quão bom foi o design e o processo, quão perto da margem está o caminho mais fraco de um chip específico no produto que você comprou. Se estiver muito próximo da borda, a mudança de temperatura ou outra pode causar problemas de temporização e os bits travarão os dados que não foram ajustados em um ou zero. Depois, há transtornos de evento único. E então há barulho. novamente coisas já mencionadas ...