Makalah tentang penanganan kesalahan dalam sistem terdistribusi

10

Makalah apa tentang penanganan kesalahan dalam sistem terdistribusi yang Anda rekomendasikan?

Alexandru
sumber
2
Saya tidak terbiasa dengan subjek, tetapi tidak ada terlalu banyak? Juga, rekomendasikan untuk apa?
Tsuyoshi Ito
5
Pertanyaannya tampaknya terlalu luas; Saya kira setengah dari semua makalah dalam komputasi terdistribusi entah bagaimana terkait dengan toleransi kesalahan.
Jukka Suomela
2
pasti terlalu luas. memilih untuk menutup ...
Suresh Venkat
Mungkin pertanyaannya tidak terlalu buruk. Saya mencoba merekomendasikan beberapa karya di bawah ini.
Dai Le
1
Pertanyaannya akan lebih baik jika Anda awalnya memasukkan informasi ini sebagai motivasi.
Dave Clarke

Jawaban:

8

Anda mungkin ingin melihat karya-karya yang memenangkan Tushar D. Chandra, Vassos Hadzilacos, dan Sam Toueg the Edsger W. Dijkstra Prize pada 2010 :

Makalah-makalah ini memperkenalkan gagasan detektor kegagalan dalam sistem terdistribusi dalam kerangka umum dan tepat. Secara intuitif, mereka mencoba mempelajari jumlah minimal informasi kegagalan yang diperlukan untuk menyelesaikan konsensus. Ternyata Anda tidak perlu detektor kegagalan yang sempurna untuk menyelesaikan konsensus. Bahkan detektor kegagalan yang tidak dapat diandalkan yang memenuhi kondisi minimal tertentu akan cukup untuk tugas tersebut. Makalah ini sangat berpengaruh pada bagaimana menghadapi kegagalan dalam sistem terdistribusi.

Dai Le
sumber
3

Jenis kesalahan apa dalam sistem? Apakah Anda mencari solusi untuk menangani kesalahan Bizantium atau hanya model gagal-berhenti klasik? Solusi di hadapan node Bizantium dalam sistem terdistribusi adalah masalah yang lebih menarik. Masalah ini diresmikan oleh Leslie Lamport (masalah Bizantium Jenderal 'dan makalah 1999 oleh Barbara Liskov dan Miguel Castro menyajikan solusi praktis kerja terdekat' Toleransi kesalahan Bizantium Praktis '. Model formal asli untuk menangani toleransi kesalahan termasuk negara). pendekatan mesin Fred Schneider dan replikasi berpandangan-view Saya setuju pertanyaannya sangat umum, bidangnya sangat luas dan teorinya membentuk dasar dari sebagian besar sistem yang berjalan hari ini secara online. Mungkin model kesalahan yang lebih spesifik dan domain masalah akan membantu memperoleh jawaban yang lebih baik

kripto
sumber
3

Berikut ini adalah kumpulan pola untuk menangani kesalahan penanganan dalam sistem terdistribusi:

Atau, untuk pekerjaan yang lebih umum, ada buku Pengantar Pemrograman Terdistribusi Handal oleh Rachid Guerraoui dan Luis Rodrigues, yang memiliki berbagai macam algoritma praktis termasuk varian pemulihan kegagalan banyak. Teks yang lebih klasik, Algoritma Terdistribusi oleh Nancy Lynch mencakup landasan serupa dari sudut pandang yang lebih teoretis.

Dave Clarke
sumber