Pentingnya memori ECC

11

Apakah modul memori ECC penting untuk dimiliki pada server yang tidak kritis?

Saya berpikir untuk mendapatkan server khusus mainan untuk banyak hal acak dan tidak penting. Reboot sporadis bukan masalah besar. Saya melihat satu penyedia tetapi harganya sangat murah. Perangkat keras mereka terdengar seperti lelucon untuk setiap kotak server serius: prosesor desktop, RAM non-ECC, sasis tanpa nama, tidak ada HDD SATA hotswap, dll. (Well, harganya membenarkannya, saya kira).

Saya menerima memori ECC untuk server "serius", jadi saya ingin tahu apakah ini masalah besar atau tidak untuk peralatan "mainan".

PJK
sumber
3
Anda mempertanyakan memori ECC namun tampak senang menggunakan drive SATA. Sangat aneh.
John Gardeniers
3
@JohnGardeniers Begini, bahkan jika itu berarti HDD mati setahun sekali, saya tidak keberatan beberapa jam downtime dan serangan pemulihan. Tetapi memiliki masalah harian / mingguan akan mengganggu. Ya, saya sebenarnya lebih peduli pada waktu luang saya daripada waktu aktif saya dalam kasus ini ...
PJK
6
@JohnGardeniers: Drive SATA tidak lebih dapat diandalkan daripada HDD SCSI / SAS: usenix.org/event/fast07/tech/schroeder/schroeder.pdf
Hubert Kario

Jawaban:

11

Data yang diterbitkan oleh staf TI CERN ( Data Integrity ) akan menyarankan bahwa jumlah kesalahan yang berasal dari RAM cukup rendah. Anda masih harus mempertimbangkan data dan biaya perangkat keras Anda.

Anda dapat membaca sedikit lebih banyak tentang ini di StorageMojo .

Hubert Kario
sumber
10

RAM ECC pada dasarnya membantu mencegah kesalahan yang terjadi saat membaca dan menulis dari RAM. Peluang sebenarnya ada kesalahan cukup kecil, tetapi tidak nol. Saya akan mengatakan bahwa jika Anda tidak melakukan hal-hal penting Anda bisa pergi tanpa RAM ECC - seperti yang saya katakan, peluang untuk menemukan kesalahan yang akan dicegah ECC benar-benar kecil.

BenGC
sumber
6

Apa itu server yang tidak kritis? Yang bisa gagal?

ECC RAM sangat penting ketika keandalan memori sangat mendasar.

Dua hal tumbuh dengan pertumbuhan ukuran memori:

  • ketergantungan perangkat lunak pada memori, esp. perangkat lunak server (mis. caching)
  • probabilitas kesalahan memori (p = num_bits * p_bit_failure)

Ini presentasi intel pada ECC melaporkan fakta-fakta ini:

  • Rata-rata tingkat kesalahan memori untuk server dengan memori 4GB berjalan 24x7 adalah 150 kali setahun
  • ~ 4000 kesalahan yang bisa diperbaiki per modul memori per tahun
  • Overclocking dan usia sistem sangat meningkatkan tingkat kegagalan
  • Kegagalan berulang sering terjadi dan terjadi dengan cepat (97% terjadi dalam 10 hari dari kegagalan pertama) => efek longsoran
  • Untuk server ECC dengan umur 3 hingga 5 tahun, peluang kegagalan sistem kesalahan memori yang tidak dapat diperbaiki kurang dari 0,001%

Penelitian terbaru lainnya oleh WISC menunjukkan ECC sangat penting untuk sistem ZFS ini:

ZFS tidak memiliki tindakan pencegahan untuk kerusakan memori: blok data yang buruk dikembalikan ke pengguna atau ditulis ke disk, operasi sistem file gagal, dan berkali-kali seluruh sistem crash.

Penting untuk dicatat bahwa sistem file lain sama sensitifnya dengan bentuk korupsi data seperti halnya ZFS.

ECC adalah apa yang menyelamatkan Anda dari masalah-masalah ini, jika memungkinkan, dan dalam kasus-kasus bencana, apa yang memperingatkan Anda tentang hal ini terjadi sebelum terlambat.

michele
sumber
1

Itu tidak begitu penting. Jika Anda membutuhkan 99,999% uptime Anda akan khawatir tentang hal itu. Selain itu Anda akan reboot lebih sering daripada Anda akan mendapatkan kesalahan memori.

Jim B
sumber
1

Ini studi oleh Google dari 2009 menemukan tingkat kesalahan antara 25.000 dan 70.000 kesalahan per miliar jam perangkat per megabit. Itu berarti untuk 8GiB dari (digunakan) RAM ada sekitar 1,7 hingga 4,8 kesalahan per jam.

Bitflips adalah sesuatu yang ada dan tidak boleh diabaikan begitu saja integritas data menjadi penting.

Dalam kasus Anda (hal-hal acak, non-kritis) itu mungkin akan berlebihan.

bl4x1
sumber