Artigos sobre tratamento de falhas em sistemas distribuídos

10

Quais documentos sobre o tratamento de erros em sistemas distribuídos você recomenda?

reference-request dc.distributed-comp

— Alexandru
fonte

2

Não estou familiarizado com o assunto, mas não há muitos? Além disso, recomendo para quê?

— Tsuyoshi Ito

5

A questão parece ser muito ampla; Eu acho que metade de todos os trabalhos em computação distribuída estão relacionados à tolerância a falhas.

— Jukka Suomela 6/10/10

2

definitivamente muito amplo. votar para fechar ...

— Suresh Venkat

Talvez a pergunta não seja tão ruim. Tentei recomendar alguns trabalhos abaixo.

— Dai Le

11

A pergunta teria sido melhor se você tivesse originalmente incluído essas informações como motivação.

— Dave Clarke

8

Você pode dar uma olhada nas obras que ganharam Tushar D. Chandra, Vassos Hadzilacos e Sam Toueg, o Prêmio Edsger W. Dijkstra em 2010 :

Tushar D. Chandra e Sam Toueg. Detectores de falhas não confiáveis para sistemas distribuídos confiáveis , Journal of the ACM, 43 (2): 225-267, 1996
Tushar D. Chandra, Vassos Hadzilacos e Sam Toueg. O Detector de Falha Mais Fraco para Resolução de Consenso , Journal of the ACM, 43 (4): 685-722, 1996.

Estes documentos introduzem a noção de detectores de falha em um sistema distribuído em uma estrutura geral e precisa. Intuitivamente, eles tentaram estudar a quantidade mínima de informações de falha necessárias para resolver o consenso. Acontece que você não precisa de um detector de falhas perfeito para resolver o consenso. Mesmo detectores de falhas não confiáveis que satisfaçam certas condições mínimas serão suficientes para a tarefa. Esses documentos foram muito influentes sobre como lidar com falhas em sistemas distribuídos.

— Dai Le
fonte

3

Que tipo de falhas no sistema? Você está procurando soluções para lidar com falhas bizantinas ou apenas o modelo clássico de parada de falhas? Soluções na presença de nós bizantinos em um sistema distribuído é o problema mais intrigante. O problema foi formalizado por Leslie Lamport (o problema dos generais bizantinos "e o artigo de 1999 de Barbara Liskov e Miguel Castro apresenta a solução prática mais prática" Tolerância a falhas bizantina prática ". Os modelos formais originais para lidar com a tolerância a falhas incluem o estado- abordagem de máquina de Fred Schneider e replicação com impressão de ponto de vista Eu concordo que a questão é muito geral, o campo é imenso e a teoria forma a base da maioria dos sistemas atualmente em execução online Talvez um modelo de falha mais específico e o domínio do problema ajudem a obter melhores respostas

— kryptos
fonte

3

Aqui está uma coleção de padrões para lidar com erros em sistemas distribuídos:

Padrões para geração, tratamento e gerenciamento de erros de Andy Longshaw e Eoin Woods, EuroPlop 2004.

Como alternativa, para trabalhos mais genéricos, há o livro Introdução à Programação Distribuída Confiável, de Rachid Guerraoui e Luis Rodrigues, que possui uma vasta gama de algoritmos práticos, incluindo muitas variantes de recuperação de falhas. O texto mais clássico Algoritmos Distribuídos de Nancy Lynch cobre um terreno semelhante de uma perspectiva mais teórica.

— Dave Clarke
fonte