Mode Cermin RAM: Apakah itu layak?

18

Tidak terlalu mengenal "Mirrored Channel Mode" Intel untuk pengaturan Blade Server (basis data OLTP MySQL Anda yang cukup-berat berjalan di bare metal; tidak ada virtualisasi saat ini).

Dari dokumen Intel saya dapat menemukan:

Intel Xeon Processor 5500 series dan Intel Xeon Processor 5600 series mirroring saluran untuk mengkonfigurasi saluran yang tersedia dari DDR3 DIMM dalam konfigurasi cermin. Konfigurasi cermin adalah gambar memori yang berlebihan, dan dapat terus beroperasi meskipun ada kesalahan yang tidak dapat diperbaiki secara sporadis. Mirroring saluran adalah fitur RAS di mana dua gambar identik dari data memori dipertahankan, sehingga memberikan redundansi maksimum.

Pada prosesor Intel Xeon Processor 5500 series dan Intel Xeon Processor 5600 series berbasis papan server Intel, mirroring dicapai di seluruh saluran. Saluran aktif menyimpan gambar utama dan saluran lainnya menyimpan gambar sekunder dari memori sistem. Pengontrol memori terintegrasi dalam prosesor Intel Xeon Processor 5500 series dan Intel Xeon Processor 5600 series berganti-ganti antara kedua saluran untuk transaksi baca. Transaksi tulis dikeluarkan untuk kedua saluran dalam keadaan normal.

Namun, saya tidak benar-benar mengambil apa yang mereka baringkan di sini. Saya kehilangan setengah kapasitas penyimpanan saya, tetapi saya mendapatkan "redundansi" memori dan kemungkinan mendapatkan manfaat kinerja baca / tulis? Suka RAID 1 untuk RAM? Adakah yang punya pengalaman praktis dengan konfigurasi ini?

gravyface
sumber

Jawaban:

7

Secara pribadi saya akan lebih cepat menggunakan beberapa bentuk pengelompokan daripada tingkat ketahanan perangkat keras. Masuk akal untuk komponen murahan seperti disk untuk menggandakannya, tetapi mirroring memory adalah yang bagus untuk dimiliki tetapi tidak begitu berguna. Maksud saya apa yang lebih mungkin gagal; sebuah CPU, OS Anda, perangkat lunak Anda, mobo Anda, PSU / s Anda. Saya akan lebih cepat memasukkan uang ke pengelompokan.

Chopper3
sumber
1
Pikiran saya persis: walaupun tentu saja berguna untuk titik kegagalan yang sangat spesifik, saya dapat menandai lebih banyak "kotak" HA dengan menempuh rute pengelompokan dengan satu atau dua blade lain (dan kemungkinan sasis lain di pusat data lain).
gravyface
1
pengelompokan tidak akan membantu Anda ketika perhitungan harus dilakukan sesuai jadwal atau dalam bingkai foto. Dalam beberapa situasi, failover membutuhkan waktu lebih lama daripada operasi yang harus dilakukan
Jim B
7

"RAID 1 untuk RAM" adalah deskripsi yang akurat. Dalam pengalaman saya, tidak banyak manfaat kinerja, tetapi tergantung pada kecepatan bus vs kecepatan modul, jarak tempuh Anda dapat bervariasi.

Sejauh redundansi berjalan .. yah, tidak terlalu sering bahwa modul memburuk.

Secara pribadi, saya mematikan mirroring setiap kali saya melihatnya diaktifkan.

Shane Madden
sumber
2
terima kasih Shane. Pernah melakukan benchmark apa pun sebelum / sesudah?
gravyface
@gravyface Tidak bisa mengatakan bahwa saya miliki, sayangnya; hanya belum melihat kinerja yang terlihat berbeda on vs off (pada server database dan host vm). Beberapa angka pasti pasti menyenangkan.
Shane Madden
2
Saya akan melakukan beberapa tolok ukur kemudian. Lihat apakah itu membuat perbedaan. Tidak bisa mengatakan manfaat koreksi kesalahan terdengar seperti manfaat nyata, tapi saya ingin tahu bagaimana kinerjanya. Saya akan menunggu beberapa hari untuk beberapa jawaban tambahan dan kemudian tandai ini benar.
gravyface
Saya melihat redup menjadi buruk secara berkala, namun mengingat ukuran lingkungan saya harus melihat 1 dimm setiap 2 minggu (secara statistik)
Jim B
4

Saya telah membaca bahwa hal semacam ini (Anda dapat melakukannya dengan CPU juga) sangat berguna dalam kelompok superkomputer besar.

Beberapa dari cluster ini menjalankan begitu banyak mesin sehingga akan ada kegagalan mesin setiap beberapa jam. Lebih cepat dari pekerjaan yang bisa diselesaikan. Itu benar-benar mengacaukan perhitungan. Menambahkan redundansi seperti ini ke setiap node dapat lebih dari dua kali lipat waktu antara kegagalan.

Zan Lynx
sumber
jadi ini adalah barang-barang kelas atas yang sekarang mengalir ke arus utama, saya ambil. Tidak benar-benar melihat banyak nilai untuk kebutuhan saya. Terimakasih Meskipun.
gravyface
Ya, ini adalah kelas atas. Tunggu sampai Anda mendapatkan plug panas CPU DAN CPU MIRRORING (!) Di pc;) Mainframe dapat beralih ke cpu lain ketika salah satu gagal.
TomTom
3

Mode memori ini benar-benar dirancang untuk situasi di mana Anda memerlukan ketersediaan tinggi. Anda seharusnya tidak melihat banyak perbedaan kinerja (karena hilangnya satu saluran mungkin tidak terlihat dalam operasi normal) namun Anda benar-benar kehilangan banyak ram. Dengan mirroring diaktifkan, hanya sepertiga dari total memori yang tersedia untuk digunakan karena dua slot DIMM adalah saluran utama, dua slot DIMM adalah saluran cadangan, dan dua slot DIMM tidak digunakan. (setidaknya begitulah pada IBM)

Saya biasanya menyarankan agar dimatikan (jika Anda memiliki aplikasi atau OS yang suka ram - dan mari kita hadapi itu: apakah ada yang tidak?) Atau menyimpan hingga meng-upgrade ke chipset ex5 dari IBM (hp dan yang lain segera untuk mengikuti dengan penawaran serupa) yang menambahkan muatan kapal lebih banyak QPI.

Ada sesekali "server ini harus menyala terlepas dari jumlah tembakan yang dilakukan padanya" dan jenis redundansi ini membantu. Selain itu, Anda telah membeli ram kurang dari kualitas bintang ini mungkin menyelamatkan Anda dari layar biru atau 2.

Jim B
sumber
Ya, tidak melihat banyak kebutuhan untuk ini sekarang. Jelas tidak ada yang suka downtime, tetapi ketika kita membahas HA, kita pasti akan melihat pengelompokan.
gravyface
1
ini sebagai tanggapan atas "lihat satu DIMM buruk setiap dua minggu" - seberapa sering Anda melihat DIMM buruk melewati masa tenggang? Saya tidak ingat pernah memiliki RAM buruk sekali dalam produksi; Saya biasanya melihatnya beberapa jam / hari pertama di bawah beban kerja yang khas.
gravyface
Hasil kami mencerminkan tingkat yang dilihat google oleh cs.toronto.edu/~bianca/papers/sigmetrics09.pdf . Kami memiliki konfigurasi server yang sama - server yang terisi penuh dengan banyak dimm, dan aplikasi yang intensif memori. Dalam melihat 1 dari lingkungan vmware saya, saya melihat 3 dimms buruk di 18 IBM hs22vs yang terisi penuh (324 dimms) Server-server ini telah beroperasi selama sekitar satu tahun sekarang.
Jim B