Falhas do processador na computação distribuída que não são travadas ou bizantinas


13

Existem dois tipos principais de falhas de processador nos modelos de computação distribuída:

(1) Falhas de falha: um processador para e nunca inicia novamente. (2) Falhas bizantinas: os processadores se comportam de maneira adversa e maliciosa.

Minha pergunta é:

Quais são alguns outros tipos de falhas de processador que foram estudados, que não se reduzem a falhas ou falhas bizantinas?

Além disso, uma pergunta mais específica:

Foi estudado um modelo em que, com alguma probabilidade, um processo está ativado no momento , e fora disso? Portanto, cada processo está piscando, por assim dizer.t

Estou mais interessado em como essas falhas se relacionam com o consenso e outros problemas de acordos distribuídos.

Obrigado.


@ Aaron: Eu fiz um curso sobre "sistemas distribuídos" e outro sobre "sistemas tolerantes a falhas" há vários anos, mas não gosto muito desses tópicos. No entanto, acho que a palavra-chave modelo de falha dinâmica pode ajudá-lo.
MS Dousti 11/11/10

1
Eu acho que o modelo de falha usado na área de autoestabilização não se reduz a falhas de falhas ou falhas bizantinas. Uma maneira de relacioná-lo às falhas bizantinas: você pode ter um comportamento bizantino temporário , mas se e quando esse comportamento parar, um sistema autoestabilizador precisará atingir um estado correto.
Jukka Suomela 11/11/2010

1
Em relação à sua pergunta mais específica: se um processador "liga" com probabilidade , parece-me muito com um modelo assíncrono no qual os processadores estão sempre ativos, mas as mensagens levam, digamos, 1 / p rodadas na expectativa de chegar ao seu destino. Você poderia talvez esclarecer como isso difere do modelo que você tinha em mente? p1/p
Jukka Suomela 11/11/10

1
@ Aaron: Eu realmente não sei o quanto esse tipo de modelo foi estudado. Mas acho que se você tiver algum algoritmo síncrono determinístico com o tempo de execução T , você pode simplesmente usar o sincronizador α para simular A no modelo assíncrono, e acho que o tempo de execução esperado seria algo como T / p . (O α -synchroniser simplesmente garante que seus vizinhos são nunca mais do que um passo de tempo à frente ou atrás de você na simulação de um .)UMATαUMAT/pαUMA
Jukka Suomela

2
@ Aaron: Eu peguei a teoria da computação distribuída com Michel Raynal e ele descreveu um terceiro modelo, no qual as mensagens podem ser descartadas aleatoriamente. Nesse modelo, uma mensagem pode falhar silenciosamente ao ser entregue, mas isso não significa necessariamente que o nó falhou. Trata-se de falhas de link em vez de falhas de nó "modelo de canal com perdas justas", você pode ler mais sobre isso aqui: Transmissão confiável de uniforme quieto como uma pesquisa introdutória para oráculos de detectores de falhas - Michel Raynal ( ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz )
M. Alaggan 11/11

Respostas:


12

Copiado dos comentários sobre a pergunta conforme solicitação.

Adotei a teoria da computação distribuída com Michel Raynal e ele descreveu um terceiro modelo, no qual as mensagens podem ser descartadas aleatoriamente. Nesse modelo, uma mensagem pode falhar silenciosamente ao ser entregue, mas isso não significa necessariamente que o nó falhou. Trata-se de falhas de link em vez de falhas de nó "modelo de canal com perdas justas", você pode ler mais sobre isso aqui: Transmissão confiável de uniforme quieto como uma pesquisa introdutória para oráculos de detectores de falhas - Michel Raynal (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)


10

Devido ao alto custo de recursos envolvido na tolerância a falhas bizantina, os modelos de falhas com suposições cada vez mais fortes foram analisados, é claro, especialmente nos requisitos de recursos para tolerar falhas de tipo restrito. ( Azadmanesh e Kieckhafer, 2002 ) fornecem uma taxonomia muito agradável (ver Fig. 1)

3f+1f+12f+1f

Outra maneira de modelar as premissas do modo de falha é afastar-se do ponto de vista central do nó, em que a perda de mensagem é modelada como falha do remetente, em direção ao modelo de falha de link, que é apenas uma visão dupla, uma vez que as inconsistências que eles podem causar. o sistema é considerado. Esse modelo foi investigado por ( Schmid, Weiss e Rushby, 2002 ), contornando um resultado impossível ( Gray, 1978 ), mostrando uma solução determinística do problema do Ataque Coordenado sob falhas de link.


8

Não sei se @M. Alaggan estava falando sobre esse tipo de falhas, mas elas certamente se parecem: falhas transitórias.

No modelo do DVFS , onde é possível modificar a frequência e a tensão para reduzir o consumo de energia, Zhu e Aydin neste artigo (pdf) usaram um modelo de falha para o DVFS. Eles consideram falhas transitórias, que são falhas causadas por erros de software, por exemplo. Eles invalidam apenas a execução da tarefa atual e o processador sujeito a essa falha poderá recuperar e executar a tarefa subseqüente atribuída a ele (se houver).

λ

λ(f)=λpedfmumax-ffmumax-fmEun,
fmEunffmumaxd0 0λpfmumaxpTEupfEu
REu(fEu)=e-λ(fEu)×ExecvocêtEuon TEume(TEu,fEu).

Desculpe postar isso muito tempo após o post original, mas encontrei essa pergunta enquanto trabalhava nesse assunto :). Quando não está estudando o DVFS, essas falhas ainda existem, as fórmulas provavelmente ainda são válidas (ou adaptáveis). Você pode encontrar mais informações sobre falhas transitórias sem o DVFS aqui .


4

Em relação aos modelos de falha por omissão já mencionados, consulte o NeigerToueg , que considera diferentes tipos.

Foi estudado um modelo em que, com alguma probabilidade, um processo está ativado no momento t, e fora disso? Portanto, cada processo está piscando, por assim dizer.

Isso soa como um modelo de recuperação de falhas. Não conheço nenhum modelo em que os processos sejam ativados / desativados probabilisticamente. Há também variantes em que os processos são bizantinos por algum tempo e depois se recuperam, onde, com o tempo, todos os processos podem ser bizantinos (embora considerados principalmente para sincronização de relógio).

Observe que se desligando você apenas quer dizer que um processo não está apenas progredindo (ele não perde seu estado e nem as mensagens são perdidas devido ao receptor estar "desligado"), o que você está vendo é chamado de assíncrono sistema. No contexto da memória compartilhada, sua pergunta pode estar intimamente relacionada a este artigo de Aspnes .


1

Pode haver outros tipos de falhas. Por exemplo, alguns dos processadores (por exemplo, nos protocolos de difusão ou multicast) podem ficar sobrecarregados e não conseguiriam processar todas as mensagens recebidas. Isso resulta em fazer o processador parecer offline para alguns processadores no sistema distribuído.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.