Melacak pengecualian dan kesalahan dalam perangkat IOT produksi?

11

Bagaimana perusahaan melacak kesalahan pada perangkat IoT, gateway dan platform saat ini? Perusahaan saya menggunakan papertrail untuk mengumpulkan log dari semua perangkat, namun ini sering membuat kami menggaruk-garuk di antara banyak sistem ketika terjadi kesalahan dalam produksi.

Saya mencari cara untuk mengurangi "penyebab waktu ke akar" kami ketika menyelesaikan pengecualian yang mungkin dihasilkan di satu tempat (misalnya pada platform IoT), tetapi berasal sebagai hasil dari masalah di tempat lain di stack - misalnya kesalahan data dari perangkat tepi.

Dalam hal apa yang saya temukan di ruang ini, Sentry dan Rollbar bagus untuk pelacakan pengecualian di server atau aplikasi, tetapi tidak menyediakan sarana untuk melacak kesalahan cascading seperti yang dibahas pada paragraf sebelumnya.

Apakah ada sistem untuk melakukan ini lebih baik daripada pencatatan teks? Saya secara khusus ingin memanfaatkan acara gaya remah roti yang Anda dapatkan dari Sentry, tetapi dengan pelacakan di seluruh sistem terdistribusi.

hookd
sumber

Jawaban:

5

Pelacakan Terdistribusi

Gagasan di balik penelusuran terdistribusi yang layak umumnya dikenal dijelaskan dalam whitepaper Google ini tentang solusi Dapper mereka . Perhatikan bahwa saya tidak mengatakan mereka menciptakannya. Intinya itu bekerja sama untuk IoT, cukup mulai jejak di tepi, baik di backend Anda atau bahkan di perangkat akhir.

Sementara whitepaper Google lebih atau kurang fokus pada sistem sisi server, konsep dapat dengan mudah diadaptasi untuk memasukkan perangkat akhir. Keajaiban menggunakan jejak dan rentang id untuk melacak semua informasi Anda di seluruh sistem dapat dilihat oleh setiap visualisasi yang dilakukan Netflix melalui Vizceral yang baru-baru ini bersumber terbuka. Apa yang ada di blog divisualisasikan di bawah Tampilan Daerah sepenuhnya didasarkan pada analisis log langsung di mana panggilan dikorelasikan melalui jejak id. Perhatikan bahwa - seperti Google yang menyebutkan dalam kertas Dapper - Netflix memiliki contoh panggilan yang berderak di API mereka. Google menyebutkan 1: 1000 di koran - yang berusia beberapa tahun. Rupanya Netflix telah mencapai 1: 1 juta pada beberapa jenis permintaan mereka.

Saya tidak tahu tentang sistem Anda, tetapi sangat mungkin Anda dapat memulai dengan penelusuran 100% aktual.

Apa pun caranya selama Anda dapat mencocokkan jejak dari awal ke perangkat IoT Anda atau bahkan membuat id jejak di titik akhir Anda di tempat pertama, tidak ada yang mencegah Anda mengadaptasi ide-ide ini dengan cara yang mencakup perangkat tepi Anda.

Helmar
sumber
Terima kasih Helmar, saya berharap saya menyebut Dapper dalam pertanyaan awal saya karena saya sudah membaca di area itu! Tentunya ada ruang untuk memanfaatkan ini, tetapi juga berharap untuk melihat apakah ada solusi lain yang sudah digunakan?
hookd