Kami (dan maksud saya, Jeff) sedang mencari kemungkinan menggunakan disk SSD MLC Konsumen di pusat data cadangan kami.
Kami ingin mencoba menekan biaya dan menghemat ruang - jadi Intel X25-E cukup besar, masing-masing sekitar $ 700 dan kapasitas 64GB.
Apa yang kami pikirkan lakukan adalah membeli beberapa SSD kelas bawah yang menawarkan kapasitas lebih banyak pada titik harga lebih rendah. Bos saya tidak berpikir menghabiskan sekitar 5rb untuk disk di server yang kehabisan pusat data cadangan layak investasi.
Drive ini akan digunakan dalam larik RAID 6 drive pada Lenovo RD120. Pengontrol RAID adalah Adaptec 8k (lambang Lenovo).
Betapa berbahayanya pendekatan ini dan apa yang bisa dilakukan untuk mengurangi bahaya ini?
Jawaban:
Beberapa pemikiran;
Semoga beruntung - jangan 'goreng' mereka dengan menulis :)
sumber
Saya menemukan tautan ini, yang memiliki analisis yang menarik dan menyeluruh tentang MLC vs SLC SSD di server
Perhatikan bahwa beberapa vendor MLC SSD mengklaim bahwa drive mereka "cukup kuat" untuk bertahan dari penulisan:
Ada analisis lebih lanjut dari klaim ini di AnandTech .
Selain itu, sekarang Intel telah mencatat bahwa SLC mungkin berlebihan di server 90% dari waktu :
Intel, bahkan untuk drive SSD yang berorientasi server, telah bermigrasi dari SLC ke MLC dengan ruang "overprovisioning" yang sangat tinggi dengan seri Intel SSD 710 baru . Drive ini mengalokasikan hingga 20% dari keseluruhan penyimpanan untuk redundansi secara internal:
sumber
Selalu mendasarkan hal-hal semacam ini pada fakta daripada anggapan. Dalam hal ini, mengumpulkan fakta itu mudah: catat profil baca-tulis IOPS jangka panjang dari sistem produksi Anda, dan kemudian cari tahu apa yang dapat Anda jalani dalam skenario pemulihan bencana. Anda harus menggunakan sesuatu seperti persentil ke-99 sebagai ukuran Anda. Jangan tidak menggunakan rata-rata ketika mengukur IOPS cpacity - puncak adalah semua yang peduli! Maka Anda perlu membeli kapasitas dan IOPS yang diperlukan sesuai kebutuhan untuk situs DR Anda. SSD mungkin merupakan cara terbaik untuk melakukan itu, atau mungkin tidak.
Jadi, misalnya, jika aplikasi produksi Anda membutuhkan 7500 IOPS pada persentil ke-99, Anda mungkin memutuskan Anda dapat hidup dengan 5000 IOPS dalam bencana. Tapi itu setidaknya 25 15K disk diperlukan di sana di situs DR Anda, jadi SSD mungkin menjadi pilihan yang lebih baik jika kebutuhan kapasitas Anda kecil (terdengar seperti itu). Tetapi jika Anda hanya mengukur bahwa Anda menghasilkan 400 IOPS dalam produksi, cukup beli 6 drive SATA, hemat koin, dan gunakan ruang ekstra untuk menyimpan lebih banyak snapshot cadangan di situs DR. Anda juga dapat memisahkan membaca dan menulis dalam pengumpulan data Anda untuk mengetahui berapa lama SSD non-perusahaan akan bertahan untuk beban kerja Anda berdasarkan spesifikasinya.
Juga ingat bahwa sistem DR mungkin memiliki memori lebih kecil dari produksi, yang berarti lebih banyak IOPS diperlukan (lebih banyak menukar dan lebih sedikit cache sistem file).
sumber
Bahkan jika MLS SSD hanya berlangsung selama satu tahun, dalam waktu bertahun-tahun penggantian akan jauh lebih murah. Jadi bisakah Anda mengatasi keharusan untuk mengganti SSD MLS ketika mereka keluar?
sumber
Jika kita mengesampingkan masalah kuantitas penulisan (atau membuktikan bahwa SSD tingkat konsumen dapat mengatasinya), saya pikir SSD adalah hal yang baik untuk ditambahkan ke lingkungan tingkat perusahaan. Anda mungkin akan menggunakan SSD dalam array RAID. RAID5 atau RAID6. Dan masalah dengan ini adalah bahwa setelah kegagalan drive tunggal, array menjadi semakin rentan terhadap kegagalan. Dan waktu untuk membangunnya kembali sangat tergantung pada volume array. Beberapa larik TB dapat membutuhkan waktu berhari-hari untuk dibangun kembali, sambil terus diakses. Dalam hal SSD, RAID-array akan a) pasti lebih kecil b) waktu pembuatan kembali berkurang secara drastis.
sumber
Sebuah Whitepaper tentang perbedaan antara SLC dan MLC dari SuperTalent menempatkan daya tahan MLC dan 10 dari daya tahan SSD SLC tetapi kemungkinan SSD MLS akan hidup lebih lama dari perangkat keras yang Anda masukkan. Saya tidak yakin seberapa dapat diandalkan statistik / fakta tersebut dari SuperTalent.
Dengan asumsi Anda mendapatkan tingkat dukungan yang sama dari pemasok SSD MLC maka titik harga yang lebih rendah membuatnya layak dicoba.
sumber
Anda hanya harus menghitung jumlah tulisan harian yang Anda miliki dengan set-up Anda saat ini dan membandingkannya dengan apa yang dijamin pabrik drive SSD mereka. Intel tampaknya paling terdepan dalam hal ini - misalnya, lihat lembar data drive SSD utama mereka: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm
Bagian 3.5 (3.5.4, khususnya) dari dokumen spesifikasi mengatakan bahwa Anda dijamin memiliki drive Anda setidaknya 5 tahun dengan 20GB penulisan per hari. Saya berasumsi itu sedang dihitung saat menggunakan seluruh kapasitas drive dan tidak menyediakan ruang kosong untuk menulis sendiri.
Yang juga menarik adalah lembar data tentang penggunaan SSD mainstream di lingkungan perusahaan.
sumber
Saya menggunakan beberapa drive SLC 32 GB beberapa tahun yang lalu sebagai penyangga untuk beberapa aplikasi yang dirancang dengan buruk yang kami gunakan.
Aplikasi ini menulis 90% kecil (<4k) dan berjalan secara konsisten (24/7) pada 14k w / s sekali pada drive SSD. Mereka dikonfigurasi RAID 1, semuanya cerah, latensi rendah!
Namun kira-kira satu bulan dan drive pertama berkemas, secara harfiah dalam waktu 3 jam, drive kedua telah mati juga. Bagaimanapun RAID 1 bukan rencana yang bagus :)
Saya akan setuju dengan poster-poster lain tentang semacam RAID 6 jika tidak ada lagi yang menyebarkannya ke lebih banyak drive.
Sekarang ingatlah ini beberapa tahun yang lalu dan hal-hal ini jauh lebih dapat diandalkan sekarang dan Anda mungkin tidak memiliki profil I / O yang sama.
Aplikasi ini telah direkayasa ulang, namun sebagai celah penghenti yang mungkin atau mungkin tidak membantu Anda, kami membuat disk ram besar, membuat beberapa skrip untuk membangun kembali / membuat cadangan disk ram dan mengambil hit satu jam atau lebih kehilangan data /Waktu Pemulihan.
Sekali lagi, siklus hidup data Anda mungkin berbeda.
sumber