Rastreando exceções e erros em dispositivos IoT de produção?

Como as empresas estão rastreando erros em dispositivos, gateways e plataformas de IoT atualmente? Minha empresa está usando o papertrail para agregar logs de todos os dispositivos; no entanto, isso geralmente nos deixa mexendo entre vários sistemas quando ocorre um erro na produção.

Estou procurando uma maneira de reduzir nosso "tempo até a causa raiz" ao resolver exceções que podem ter sido geradas em um único local (por exemplo, em uma plataforma IoT), mas que se originaram como resultado de um problema em outro lugar do pilha - por exemplo, erro de dados do dispositivo de borda.

Em termos do que encontrei neste espaço, o Sentry e o Rollbar são bons para rastrear exceções em servidores ou aplicativos, mas não fornecem um meio de rastrear erros em cascata, conforme discutido no parágrafo anterior.

Existem sistemas para fazer isso melhor do que o log de texto? Estou procurando especificamente usar os eventos de trilha de navegação que você recebe do Sentry, mas com o rastreamento em um sistema distribuído.

remote-access product-design

— hookd
fonte

Rastreio Distribuído

A idéia por trás de qualquer rastreamento distribuído que vale a pena é mais comumente descrita neste white paper do Google sobre a solução Dapper . Note que não estou dizendo que eles o inventaram. Em essência, ele funciona da mesma maneira para a IoT, basta iniciar o rastreamento na borda, no back-end ou nos dispositivos finais.

Embora o whitepaper do Google seja mais ou menos focado nos sistemas do servidor, o conceito pode ser facilmente adaptado para incluir dispositivos finais. A mágica de usar os IDs de rastreamento e extensão para rastrear todas as suas informações nos sistemas pode ser vista em todas as visualizações que a Netflix faz via Vizceral, que eles têm código aberto recentemente. O conteúdo do blog é visualizado no Modo de Exibição Regional é completamente baseado em análises de log ao vivo, nas quais as chamadas são correlacionadas por meio de IDs de rastreamento. Observe que, como o Google menciona no jornal Dapper, a Netflix tem uma amostra das chamadas que estão sendo exibidas na API. O Google mencionou 1: 1000 no jornal - que tem alguns anos. Aparentemente, a Netflix atingiu 1: 1 milhão em alguns de seus tipos de solicitação.

Não sei sobre o seu sistema, mas é muito provável que você possa começar com um rastreamento 100% real.

De qualquer maneira, desde que você possa corresponder o rastreio desde o início aos seus dispositivos de IoT ou até mesmo criar os IDs de rastreio nos pontos de extremidade, nada impede que você adapte essas idéias de uma maneira que inclua seus dispositivos de borda.

— Helmar
fonte

Obrigado Helmar, gostaria de ter mencionado o Dapper na minha pergunta original, porque eu já estava lendo essa área! Certamente há espaço para fazer uso disso, mas também esperava ver se existem outras soluções existentes que já estão em uso?

— hookd