Ini mungkin terdengar seperti pertanyaan aneh, tetapi menghasilkan beberapa diskusi bersemangat dengan beberapa rekan saya. Pertimbangkan array RAID berukuran sedang yang terdiri dari sekitar delapan atau dua belas disk. Saat membeli batch awal disk, atau membeli penggantian untuk memperbesar array atau menyegarkan perangkat keras, ada dua pendekatan luas yang bisa diambil:
- Beli semua drive dalam satu urutan dari satu vendor, dan terima satu kotak besar berisi semua disk.
- Pesan satu disk masing-masing dari berbagai vendor, dan / atau sebarkan (selama beberapa hari atau minggu) beberapa pesanan masing-masing satu disk.
Ada beberapa jalan tengah, jelas, tetapi ini adalah pola pikir lawan utama. Saya benar-benar ingin tahu pendekatan mana yang lebih masuk akal dalam hal mengurangi risiko kegagalan bencana array. (Mari kita mendefinisikan bahwa sebagai "25% dari disk gagal dalam jendela waktu sama dengan berapa lama yang diperlukan untuk resilver array sekali.") Logikanya adalah, jika semua disk berasal dari tempat yang sama, mereka semua mungkin memiliki yang sama cacat yang mendasarinya menunggu untuk menyerang. Timebomb yang sama dengan hitungan mundur awal yang sama pada jam, jika Anda mau.
Saya telah mengumpulkan beberapa pro dan kontra yang lebih umum untuk setiap pendekatan, tetapi beberapa dari mereka merasa seperti dugaan dan insting daripada data berbasis bukti yang keras.
Beli sekaligus, pro
- Lebih sedikit waktu yang dihabiskan dalam fase penelitian / pemesanan.
- Meminimalkan biaya pengiriman jika vendor mengenakan biaya untuk itu.
- Disk dijamin memiliki versi firmware yang sama dan "kebiasaan" yang sama dalam karakteristik operasionalnya (suhu, getaran, dll.)
- Kenaikan harga / kekurangan stok tidak mungkin menghentikan proyek di tengah jalan.
- Setiap disk berikutnya tersedia saat dibutuhkan untuk diinstal.
- Nomor seri semuanya diketahui di muka, disk dapat dipasang di enklosur dengan urutan peningkatan nomor seri. Tampaknya terlalu cerewet, tetapi beberapa orang tampaknya menghargai itu. (Saya kira antarmuka manajemen mereka mengurutkan disk dengan nomor seri, bukan urutan port perangkat keras ...?)
Beli sekaligus, kontra
- Semua disk (mungkin) berasal dari pabrik yang sama, dibuat pada waktu yang sama, dari bahan yang sama. Mereka disimpan di lingkungan yang sama, dan mengalami potensi pelanggaran yang sama selama transit. Setiap cacat atau kerusakan yang ada dalam satu kemungkinan hadir dalam semua.
- Jika drive diganti satu per satu ke dalam array yang ada dan setiap disk baru perlu di-resilver secara individual, ini bisa berpotensi berminggu-minggu sebelum disk terakhir dari pesanan dipasang dan ternyata rusak. Jendela pengembalian / penggantian dengan vendor dapat kedaluwarsa selama waktu ini.
- Tidak dapat mengambil keuntungan dari penurunan harga dalam waktu dekat yang mungkin terjadi selama proyek.
Beli satu per satu, pro
- Jika satu disk gagal, ia berbagi sangat sedikit sejarah manufaktur / transit dengan disk lain mana pun. Jika kegagalan itu disebabkan oleh sesuatu dalam pembuatan atau transit, penyebab root kemungkinan tidak terjadi pada disk lain.
- Jika disk mati pada saat kedatangan atau gagal pada jam-jam pertama penggunaan, itu akan dideteksi segera setelah pengiriman tiba dan proses pengembalian mungkin berjalan lebih lancar.
Beli satu per satu, kontra
- Membutuhkan banyak waktu untuk menemukan vendor yang cukup dengan harga yang menyenangkan. Pelacakan pesanan, kegagalan pengiriman, pengembalian barang yang rusak, dan masalah lain dapat menghabiskan waktu untuk diselesaikan.
- Biaya pengiriman berpotensi lebih tinggi.
- Kemungkinan yang sangat nyata ada bahwa disk baru akan diperlukan tetapi tidak ada yang akan menghentikan proyek.
- Manfaat yang dibayangkan. Terlepas dari vendor atau tanggal pembelian, semua disk berasal dari tempat yang sama dan benar-benar sama. Cacat manufaktur akan terdeteksi oleh kontrol kualitas dan disk di bawah standar tidak akan terjual. Kerusakan pengiriman harus sangat mengerikan (dan jelas terlihat dengan mata telanjang) sehingga drive yang rusak akan terlihat jelas saat dibongkar.
Jika kita hanya menghitung jumlah poin, "beli dalam jumlah besar" akan menang dengan sangat jelas. Tetapi beberapa pro lemah, dan beberapa kontra kuat. Banyak dari poin-poin tersebut hanya menyatakan kebalikan logis dari beberapa yang lain. Beberapa dari hal-hal ini mungkin takhayul yang absurd. Tetapi jika takhayul melakukan pekerjaan yang lebih baik dalam menjaga integritas array, saya kira saya akan bersedia melakukannya.
Kelompok mana yang paling masuk akal di sini?
UPDATE: Saya punya data yang relevan dengan diskusi ini. Array terakhir yang saya buat secara pribadi (sekitar empat tahun lalu) memiliki delapan disk. Saya memesan dari satu vendor tunggal, tetapi membagi pembelian menjadi dua pesanan masing-masing empat disk, sekitar satu bulan terpisah. Satu disk array gagal dalam beberapa jam pertama berjalan. Itu dari batch pertama, dan jendela kembali untuk pesanan itu telah ditutup pada waktu yang diperlukan untuk memutar semuanya.
Empat tahun kemudian, tujuh disk asli plus satu pengganti masih berjalan bebas dari kesalahan. (amit-amit.)
sumber
Jawaban:
Dalam praktiknya, orang yang membeli dari vendor perusahaan (HPE, Dell, dll.) Tidak mengkhawatirkan hal ini .
Drive yang bersumber dari vendor ini sudah tersebar di beberapa pabrikan dengan nomor bagian yang sama.
Disk HP di bawah SKU tertentu mungkin HGST atau Seagate atau Western Digital.
Nomor komponen HP yang sama, variasi pada pabrik, nomor lot dan firmware
Anda tidak harus mencoba mengakali / mengecoh probabilitas kegagalan batch. Anda boleh mencoba jika itu memberikan ketenangan pikiran, tetapi mungkin tidak sepadan dengan usaha.
Praktik yang baik seperti pengelompokan, replikasi dan cadangan solid adalah perlindungan nyata untuk kegagalan batch. Tambahkan suku cadang panas dan dingin. Pantau sistem Anda dengan cermat. Manfaatkan filesystem pintar seperti ZFS :)
Dan ingat, kegagalan hard drive tidak selalu mekanis ...
sumber
Untuk menghormati jawaban dari ewwhite, beberapa sysadmin melakukan pemesanan dalam batch. Saya sendiri tidak akan pernah memesan drive secara individual, tetapi operasi standar di tempat terakhir saya bekerja dalam kapasitas seperti itu adalah memesan drive dalam batch. Untuk mesin dua belas drive, SOP menentukan bahwa drive dibagi menjadi tiga batch, memberikan mesin profil redundansi tiga tingkat.
Namun, pakaian kecil lain yang saya konsultasikan telah mengikuti protokol yang berbeda, beberapa tidak peduli dengan batch, dan yang lain membagi batch menjadi dua atau empat array. Jawaban singkatnya adalah melakukan apa yang terasa sesuai untuk tingkat layanan yang perlu Anda capai.
Catatan: Tempat terakhir saya bekerja tentu melakukan hal yang benar. Mesin penyimpanan aplikasi memutuskan untuk gagal pada seluruh batch drive, dan kami menemukan bahwa batch khusus ini semua memiliki kesalahan yang sama. Jika kita tidak mengikuti protokol batch, kita akan menderita kehilangan data yang sangat besar.
sumber
Jawaban jujur dari seseorang yang menghabiskan banyak waktu berurusan dengan array serangan sekarat dan drive sulit: Jangan memiliki semua drive Anda dari batch yang sama jika Anda bisa menghindarinya.
Pengalaman saya hanya berlaku untuk disk yang berputar, SSD memiliki masalah dan manfaatnya sendiri untuk dipertimbangkan ketika memesan dalam jumlah besar.
Tepatnya cara terbaik untuk menangani banyak hal tergantung pada seberapa besar array yang Anda gunakan, jika Anda bekerja dengan sesuatu seperti 6 array drive dengan 2 redundansi drive, Anda mungkin dapat dengan aman membeli drive yang sama dari 3 produsen dan membagi array. seperti itu.
Jika Anda menggunakan drive aneh atau Anda bekerja dengan array yang tidak dapat dengan mudah dipartisi seperti itu Anda dapat mencoba pendekatan lain seperti membeli drive yang sama dari vendor yang berbeda, atau jika Anda membeli dalam jumlah besar Anda dapat melihat-lihat dan mencoba untuk memisahkan drive berdasarkan kemungkinan diproduksi bersama.
Jika Anda menjalankan array yang cukup kecil dengan teknologi yang tepat yang mendasarinya, bahkan mungkin bernilai waktu Anda untuk membuatnya secara bertahap dari persediaan disk yang heterogen. Mulailah dengan jumlah minimum drive yang dapat Anda gunakan dan beli persediaan berikutnya satu atau dua bulan kemudian, atau ketika Anda mengisi sistem. Itu juga memungkinkan Anda merasakan masalah apa pun yang mungkin ada dengan model tertentu yang Anda pilih.
Alasan di balik saran ini adalah kombinasi dari dua quirks drive.
MTBF sangat rusak ketika Anda memiliki banyak drive dengan asal yang sama. Dalam statistik kami menyebutnya bias sampling, karena kesamaan dalam sampel Anda efek rata-rata cenderung kurang bermanfaat. Jika ada kesalahan dengan batch atau bahkan dengan desain itu sendiri, dan itu terjadi lebih sering daripada yang Anda pikirkan, maka drive dari batch tersebut akan gagal lebih cepat daripada yang disarankan MTBF.
Jika drive tersebar, Anda mungkin mendapatkan MTBF [50%, 90%, 120%, 200%], tetapi jika semua drive berasal dari batch 50% tersebut, Anda mengalami kekacauan.
Raid array merakit ulang membunuh disk. Tidak benar-benar. Jika Anda mendapatkan kegagalan drive dan array membangun kembali, itu akan menambah beban pada drive lain saat memindai data dari mereka. Jika Anda memiliki drive yang hampir gagal, pembangunan kembali mungkin akan menghapusnya, atau mungkin sudah memiliki lokasi kegagalan yang Anda tidak sadari karena bagian itu belum dibaca baru-baru ini.
Jika Anda mendapatkan banyak drive dari batch yang sama, kemungkinan kegagalan kaskade semacam ini terjadi jauh lebih tinggi daripada peluang jika berbeda. Anda dapat mengurangi ini dengan melakukan pemindaian patroli reguler, scrub, resilver, apa pun praktik yang disarankan untuk jenis array yang Anda gunakan, tetapi downside adalah bahwa itu akan mempengaruhi kinerja dan dapat memakan waktu berjam-jam untuk menyelesaikannya.
Untuk beberapa konteks tentang seberapa lamanya umur drive bervariasi, Backblaze membuat laporan stat drive failure yang biasa ... Saya tidak berafiliasi dengan perusahaan dengan cara apa pun, tetapi mereka harus tahu apa yang mereka bicarakan tentang keandalan drive. . Contohnya adalah https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... set sampel Anda kemungkinan akan lebih kecil, sehingga data yang lebih jauh dapat mengacaukan pengalaman Anda sendiri, itu masih referensi yang bagus.
sumber
Saya harus mempertimbangkan masalah ini untuk seorang pelanggan beberapa tahun yang lalu. Saya memiliki kombinasi pengalaman praktis dan penelitian untuk mendukung rekomendasi untuk multisource.
Mengesampingkan pro dan kontra Anda untuk saat ini, serta jawaban luar biasa putih , kehati-hatian menunjukkan bahwa jika Anda membeli drive sendiri, Anda multisource. Sekilas tentang diskusi Wikipedia tentang kelemahan RAID menunjukkan dua referensi menarik.
Referensi pertama adalah makalah ACM RAID: Kinerja Tinggi, Penyimpanan Sekunder yang Andal (Chen, Lee, Gibson, Katz, dan Patterson. ACM Computing Surveys. 26: 145-185). Pada bagian 3.4.4 penulis menunjukkan bahwa kegagalan perangkat keras tidak selalu merupakan peristiwa yang independen secara statistik, dan memberikan alasannya. Pada saat saya menulis jawaban ini, makalah ini tersedia secara online; hlm 19-22 membahas keandalan ( http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889 ).
Referensi kedua adalah kegagalan Disk di dunia nyata: Apa arti MTTF 1.000.000 jam bagi Anda? (Schroeder, Gibson. Konferensi USENIX ke-5 tentang Teknologi File dan Penyimpanan.) Para penulis menyajikan data statistik untuk mendukung pernyataan bahwa kegagalan drive dapat dikelompokkan dalam waktu pada tingkat yang lebih tinggi dari yang diperkirakan untuk acara independen. Pada saat saya menulis jawaban ini, makalah ini juga tersedia online ( https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html ).
Dell secara eksplisit merekomendasikan terhadap RAID 5 kembali pada tahun 2012 karena kegagalan disk berkorelasi dalam lingkungan disk yang besar; RAID 6 diprediksi menjadi tidak dapat diandalkan karena alasan serupa di sekitar tahun 2019 (Artikel ZDNet berjudul "why-raid-6-stops-working-in-2019": http://www.zdnet.com/article/why-raid-6 -stops-working-in-2019 / ). Sementara elemen kunci dari keduanya adalah ukuran disk dan waktu pembangunan kembali, ukuran drive yang lebih kecil dan multi -sumber daya telah direkomendasikan sebagai mitigator untuk masalah RAID 5.
Jadi ya, multi-sumber drive jika Anda bisa; jika Anda membeli dari vendor perusahaan seperti yang dijelaskan dalam jawaban ewwhite ini mungkin terjadi untuk Anda secara transparan. Namun ... pelanggan saya membeli 16 drive 2TB dari vendor perusahaan. Mereka kebetulan berasal dari produsen yang sama dan tampaknya diproduksi pada saat yang sama. Dua drive gagal dalam waktu dua minggu sejak mengkonfigurasi array RAID01. Jadi periksa drive ketika Anda mendapatkannya. (Lagi pula Anda sudah memeriksanya, kan?)
sumber
Kerugian potensial lain dari pemesanan drive secara individual adalah pengemasan dan penanganan.
Hard drive hampir tidak pernah disertakan dalam kemasan ritel. Jika Anda membelinya satu per satu, mereka hampir pasti akan dibungkus ulang oleh penjual. Saya telah menemukan pengemasan ulang ini sangat bervariasi. Kadang-kadang Anda mendapatkan kotak yang bagus dengan banyak bantalan tetapi di lain waktu Anda hampir tidak mendapatkan bantalan sama sekali.
Kotak yang lebih kecil juga lebih rentan untuk dilemparkan oleh operator tanpa kerusakan luar yang jelas.
sumber
Jika Anda mencoba mengurangi skenario "kumpulan buruk", yang berarti setiap drive dalam kumpulan pembelian tertentu dapat / akan gagal dalam waktu yang bersamaan, penting juga untuk mempertimbangkan ukuran array, dan level RAID yang digunakan.
Jika Anda mempertimbangkan untuk melakukan beberapa pesanan, tidak ada standar yang berlaku di seluruh papan. Orang merekomendasikan 2 - 4 tingkatan pembelian harus bertanya pada diri sendiri, jika satu tingkat drive gagal, apakah array masih online? Jadi untuk level RAID redundansi seperti 1/5/10/50 Anda harus membeli drive 1 sekaligus. Untuk RAID6 Anda dapat membeli 2 sekaligus.
Saya akan merekomendasikan terlepas dari bagaimana Anda membeli drive yang Anda cadangkan secara teratur dan membeli suku cadang panas / dingin yang memadai untuk ukuran array dan tipe RAID Anda.
sumber
Saya selalu membeli bekas / massal. Pesanan yang saya lacak hampir selalu merupakan model perangkat yang sama, dan digunakan setidaknya meredakan kekhawatiran tentang "batch yang buruk". Ada begitu banyak perangkat keras api-apung yang melayang-layang di web sehingga saya kesulitan membenarkan untuk membeli drive baru (atau apa pun juga) kecuali itu untuk perangkat keras misi penting (dan semua perangkat keras cadangan kami masih dalam perbaikan!)
+ PRO: harga online yang kompetitif dan terus-menerus membanjiri perangkat keras dari lingkungan bisnis yang berubah berarti hampir tidak ada upaya untuk mendapatkan diskon 50-80% dari ritel untuk menarik lingkungan kerja.
+ PRO: Harga harga rendah membebaskan anggaran untuk pembelian berlebih dan mempertahankan persediaan perangkat keras pengganti yang solid.
+ PRO: Hubungan penjual Saya memiliki beberapa penjual online yang saya dapatkan sedikit diskon dari diskon yang sudah cukup besar untuk perbaikan / penggunaan perangkat keras. Biasanya tidak akan mendapatkannya dengan Monoprice kecuali Anda membeli dalam jumlah besar atau melakukan SLA dengan mereka. Juga, terutama dengan hard drive, pastikan Anda mengujinya langsung. Saya tidak pernah memiliki masalah dengan penjual yang tidak mengembalikan atau mengganti perangkat keras DOA (kecuali itu adalah penipuan yang gagal saya tangkap).
-CON: Garansi, Masalah Legitimasi Garansi didasarkan pada tanggal pembuatan perangkat, Anda juga harus terus mencari huksters online yang mencoba menjual kembali merek, klon, dll.
-CON: Pengujian Perlu memperhitungkan faktor overhead pengujian. Apapun, Anda harus menguji perangkat keras baru juga jadi tidak yakin apakah ini berlaku.
-CON: rentang hidup sulit untuk dinilai; sedikit lebih rentan terhadap kegagalan disk.
Catatan: jika itu adalah build klien dan mereka tidak secara eksplisit meminta refurb / bekas, selalu dengan mengkilap / baru!
sumber
Dimungkinkan untuk mendapatkan lebih banyak keandalan dengan menggunakan hard drive yang berasal dari batch berbeda dan produsen yang idealnya. Kalau tidak, mereka mungkin gagal terlalu dekat waktu. Jawaban yang sangat bagus dari @Eliodorus menjelaskan hal ini cukup.
Tentu saja, tidak masalah siapa yang mengocok drive. Jika penyedia Anda mengonfirmasi hal itu untuk Anda, Anda tidak perlu peduli. Namun tampaknya tidak masuk akal untuk melakukan forensik pada penyedia yang mungkin berbeda dan menyimpulkan seseorang melakukannya untuk Anda jika Anda tidak diberitahu secara langsung. Penyedia biasanya tidak malas untuk mengiklankan berbagai langkah yang mereka ambil untuk meningkatkan keandalan drive mereka.
sumber
Sebenarnya, itu tergantung pada array Redundant dari cakram murah (Raid). Dalam Raid dua, tiga, empat, lima dan enam, memang membantu memiliki drive dari beberapa batch yang berbeda, tetapi itu tidak menentukan: satu sudah secara inheren kehilangan keandalan dan kinerja dalam menggunakan level ini.
Sekarang, untuk pilihan yang biasanya waras, yaitu menggunakan Raid 1 (mirroring) atau 1 + 0 (striping over mirror), memang berguna untuk memiliki drive yang berbeda di setiap sisi cermin yang berbeda (masing-masing array Raid 1), sehingga dapat tidak memiliki cermin gagal selama pemulihan. Juga, harus ada suku cadang panas untuk meminimalkan jendela pemulihan.
Untuk informasi lebih lanjut, lihat situs web Battle to Melawan Any Raid 'F'2 (Baarf) yang menjijikkan tapi informatif, oleh jaringan meja Oak bergengsi dari para DBA senior. Wikipedia juga meringkas masalah ini dengan baik.
sumber
Sejauh yang saya tahu kualitas pemeriksaan penyimpanan disk di pabrik cukup tinggi, dan saya pribadi tidak akan takut akan kegagalan perangkat keras dalam jumlah besar karena alasan pembuatan.
Dan jika saya sedikit paranoid saya hanya akan membeli penyimpanan dari dua pabrik yang berbeda yang saya tahu tidak berbagi pabrik, melalui vendor yang sama.
Penyimpanan sangat murah, sehingga tidak masuk akal sebagai perusahaan untuk TIDAK membeli dalam jumlah besar, dan Anda akan di dalam perusahaan juga menghapus penyimpanan setelah beberapa tahun sehingga investasinya tidak terlalu bagus. Waktu yang diperlukan untuk membeli dari masing-masing vendor mungkin lebih mahal karena waktu yang dihabiskan.
Jika Anda masih takut akan kegagalan disk secara massal, beli lebih banyak dari yang Anda butuhkan. jika Anda tahu Anda membutuhkan 12 disk, daripada membeli 5 hingga 7 sebagai cadangan. Itu hanya akan menjadi $ 48 kali 5 hingga 7, per terabyte, dan kita masih bisa lebih murah tanpa membuat sistem kita tidak stabil atau tidak aman karena jika diskon dalam jumlah besar atau disk bekas (mengapa aman). Daripada kita berbicara tentang resilver / menginisialisasi ulang array, sekarang saya tentu saja tidak memiliki cara untuk mengetahui seberapa besar solusi penyimpanan Anda sekarang, tetapi jika Anda menghabiskan waktu berminggu-minggu untuk tugas ini daripada saya mungkin akan mempertimbangkan untuk mengkonfigurasi ulang penyimpanan organisasi karena ini terdengar (Bagi saya) lebih sebagai konfigurasi yang salah dari yang lain dengan satu atau lain cara.
Jika kita daripada menjadi benar-benar paranoid, dapatkan 2x dari solusi penyimpanan apa pun yang Anda jalankan, berdasarkan seberapa sensitif organisasi Anda terhadap gangguan penyimpanan ini bisa lebih murah, ini bukan hanya pilihan untuk 500 perusahaan yang beruntung.
Dan kita juga dapat membicarakan tentang pemuatan data yang tidak kita perlukan di sini dan sekarang, seperti (contoh acak) data keuangan historis bertahun-tahun kepada vendor "cloud" yang pertama kali kita enkripsi. Ini akan menghapus kebutuhan penyimpanan dari penyimpanan kami sendiri yang akan membebaskan kami baik secara finansial maupun fungsional.
Berdasarkan siapa Anda, di mana Anda berada dan apa yang Anda lakukan akan menjadi solusi berbeda untuk pekerjaan terbaik untuk Anda.
sumber