Saya sedang meninjau prosedur DR perusahaan kami dan ketika saya mencari solusi untuk kuorum yang selalu hilang di Cluster online, untuk dibandingkan. Saya tiga halaman dalam hasil google sebelum menemukan posting SE pertama pada subjek Clustering vs replikasi transaksional vs kelompok ketersediaan yang hanya sedikit menyentuh pada subjek kuorum yang hilang.
Sementara semua orang setuju bahwa kuorum yang hilang itu buruk, dan ada beberapa saran untuk mengurangi potensi, itu masih bisa terjadi. Saya mencari jawaban rekan yang baik untuk jalan terbaik menuju pemulihan dari hilangnya kuorum kluster Selalu Aktif.
sql-server
availability-groups
disaster-recovery
James Jenkins
sumber
sumber
Jawaban:
AG didasarkan pada Windows Clustering. Prosedur WSFC untuk kehilangan kuorum berlaku.
Setelah WSFC berjalan, Anda dapat memaksa AG, jika perlu. Melakukan Failover Manual Paksa dari Grup yang Tersedia :
sumber
Saya telah mengalami situasi ini terutama dengan Multi-subnet clustering yang menjangkau berbagai negara (NY-LD-HK).
Bagaimana cara menghindari Kuorum Kehilangan di multi-subnet cluster?
CrossSubnetDelay
, atauCrossSubnetThreshold
properti oleh perbaikan terbaru ini .Berbagai hal berubah di Windows server 2016 dengan diperkenalkannya cluster sadar situs dan saksi cloud .
Apa yang harus dilakukan ketika Kuorum hilang?
Seperti biasa, untuk melakukan Root Cause Analysis (RCA), kumpulkan log cluster windows Anda, untuk AlwaysON RCA - gunakan SQL Server Failover Cluster Diagnostic Logs . File-file ini di direktori SQL Server Log memiliki format berikut:
<HOSTNAME>_<INSTANCENAME>_SQLDIAG_X_XXXXXXXXX.xel
.sumber
Setelah saya terlibat dalam pemadaman di mana server mirror kami kehilangan konektivitas. Salah satu hal yang perlu dikhawatirkan adalah memastikan aplikasi Anda diarahkan ke satu contoh. Dalam pemadaman jaringan Anda dapat memiliki semua node dari cluster Selalu Aktif tetapi tidak dapat berkomunikasi satu sama lain. Anda memaksa kegagalan ke sekunder dan kemudian selama ada pemadaman Anda dapat memiliki dua node primer karena primer asli tidak akan tahu tentang kegagalan paksa atas.
Bergantung pada lokasi server aplikasi Anda, konfigurasinya dan kemampuan mereka untuk mencapai server SQL, maka secara teori Anda dapat memiliki dua node yang meyakini bahwa mereka adalah primer dan memiliki data yang berubah pada saat bersamaan. Setelah Anda memperbaiki masalah jaringan Anda dan node melanjutkan konektivitas, semua data yang diubah pada primer asli akan ditimpa dari node di mana kegagalan-dipaksa. Ini dapat menyebabkan hilangnya data penting.
Saya pernah melihat situasi ini dengan SQL 2005 dan mirroring. Dan kami memutuskan untuk tidak memaksa kegagalan dan membiarkannya tetap tidak terjangkau. Alasannya adalah bahwa dalam kasus terburuk jika kita harus mencadangkan dan mengembalikan untuk memulai ulang mirroring, maka itu akan menjadi proses 2 hari bagi kita dengan risiko log transaksi menjadi penuh dan tidak dapat memperluas disk tempat ia duduk.
sumber