Apa masalah penelitian utama dalam transaksi terdistribusi?

10

Latar Belakang: Pemrosesan transaksi telah menjadi topik penelitian tradisional dalam teori basis data. Saat ini transaksi terdistribusi dipopulerkan oleh sistem penyimpanan terdistribusi skala besar yang biasanya melibatkan partisi data (juga disebut sharding) dan replikasi data .

Apa masalah penelitian utama dalam transaksi terdistribusi?

Adakah teori dan solusi terkenal yang membutuhkan perbaikan (teoretis)?

Referensi apa pun dihargai.

Hengxin
sumber

Jawaban:

9

Ada banyak area penelitian baik dalam teori dan praktik database terdistribusi.

Salah satu tantangan praktis utama adalah penerapan mekanisme kontrol konkurensi yang efisien untuk database terdistribusi dan yang direplikasi secara geografis. Untuk melakukan transaksi secara efisien, mekanisme tersebut dapat memberikan jaminan yang lebih lemah daripada serialisabilitas, yang mengharuskan transaksi tampaknya dijalankan secara berurutan. Alternatif untuk serialisability adalah penyelesaian untuk Isolasi Snapshot [1], tetapi ini telah terbukti skalanya buruk untuk sistem replikasi dan terdistribusi secara geografis. Pada keadaan saat ini, dua varian yang berbeda dari Snapshot Isolasi (SI) telah didefinisikan untuk menangani kontrol konkurensi dalam sistem yang direplikasi secara geografis: Isolasi Snapshot Paralel (PSI) [2], dan Isolasi Snapshot Non Monoton (NMSI) [ 3,4]. Adapun apa yang berkaitan dengan database terdistribusi (yaitu di mana data terbuang di antara situs yang berbeda),

Memiliki pengertian yang berbeda tentang tingkat isolasi yang memberikan jaminan yang lebih lemah daripada serialisabilitas, pertanyaan penting lainnya adalah penulisan program dengan cara sehingga eksekusi masih tampak serialisable. Kriteria suara untuk Isolasi Snapshot telah dirancang dalam [1]. Beberapa orang dalam grup saya saat ini sedang berupaya menyusun kriteria yang masuk akal untuk PSI.

Pertanyaan lain yang relevan, baik dari sudut pandang teoretis maupun praktis, adalah tentang pemotongan transaksi. Pada dasarnya memotong adalah teknik analisis statis di mana transaksi berbutir kasar dipecah menjadi transaksi yang lebih kecil, berbutir halus. Untuk serialisability, pertanyaan ini telah diatasi dalam [6], dan teori yang dihasilkan telah diterapkan untuk memberikan implementasi praktis dalam [7].

Dari sudut pandang landasan teoritis dari database terdistribusi, telah ada beberapa proposal untuk menggunakan teknik dari komunitas model memori yang lemah [8] untuk mendefinisikan secara formal perilaku transaksi. Dalam [9] penulis memberikan gagasan formal tentang perilaku untuk transaksi; pendekatan yang sama telah digunakan dalam [10] untuk menentukan perilaku tipe data yang direplikasi.

Baru-baru ini, saya dan beberapa rekan saya (Alexey Gotsman dan Hongseok Yang) membangun, mulai dari teknik yang dikembangkan pada [8,9,10], kerangka kerja teoritis untuk menentukan perilaku yang dapat diamati dari tingkat konsistensi untuk database yang direplikasi secara geografis. Kami berhasil menggunakan kerangka kerja untuk memberikan aksioma SI, PSI dan NMSI, yang masing-masing telah kami buktikan benar sehubungan dengan implementasi yang sederhana. Kami juga mengeksploitasi teori yang dihasilkan untuk menyusun kriteria memotong untuk PSI. Semoga hasil ini kami publikasikan dalam waktu dekat.

Tolong jangan ragu untuk menulis saya jika Anda memiliki pertanyaan lain. Semoga ini membantu,

Andrea Cerone.

Referensi:

[1] Fekete dkk, Membuat Isolasi Snapshot Serializable (2005)

[2] Sovran et al, Penyimpanan Transaksional untuk Sistem yang Direplikasi Geo (2011)

[3] Arkedani et al, Isolasi Snapshot Non-Monotonik: konsistensi yang skalabel dan kuat untuk sistem transaksional geo-direplikasi (2013)

[4] Arkedani et al, Tentang Skalabilitas Isolasi Snapshot (2013)

[5] Binnig et al, Isolasi snapshot terdistribusi: transaksi global membayar secara global, transaksi lokal membayar secara lokal

[6] Shasha et al, Pemotongan transaksi: algoritme dan studi kinerja (1995)

[7] Zhang et al, Rantai transaksi: mencapai kemampuan serial dengan latensi rendah dalam sistem penyimpanan yang didistribusikan secara geografis (2013)

[8] Alglave, Hirarki formal model memori lemah (2012)

[9] Buckhardt et al, Understanding Endual Consistency (2013)

[10] Buckhardt et al, Jenis Data Replikasi: Spesifikasi, Verifikasi, Optimalitas (2014)

Andrea Cerone
sumber
Terima kasih atas jawaban komprehensif Anda. Untuk SI, adakah protokol terdistribusi dan bebas-kunci dalam pengaturan yang direplikasi dalam literatur? Atau apakah upaya ini tidak berarti karena SI tidak skala dengan baik? Untuk PSI, saya telah membaca makalah (Tim Kraska @ Eurosys'13) yang menyebutkan implementasinya dalam pekerjaan mendatang. Apakah Paxos Umum cocok untuk ini? Apa pro / kontra / tantangan yang mungkin dibandingkan dengan yang asli di Sovran et al [2]? Terima kasih lagi.
hengxin
2
Memang SI tidak skala dengan baik untuk sistem replikasi-geo. Dalam [4] di atas, penulis membuktikan bahwa ada sifat-sifat, seperti Replikasi Partial Asli, yang tidak dapat dicapai oleh DBMS yang direplikasi secara geografis yang berjalan pada tingkat konsistensi SI. Dalam [5], penulis menunjukkan contoh eksekusi yang berperilaku sesuai dengan SI secara lokal (pada pecahan tunggal), tetapi tidak secara global, dan mengusulkan varian SI, yang disebut DSI. Mengenai MDCC, saya tidak mengetahui makalah ini, dan saya harus mengakui bahwa saya tidak tahu detail implementasi Paxos yang digeneralisasi. Tapi saya dengan senang hati akan melihat, dan menjawab secepatnya.
Andrea Cerone