Google melakukan penelitian yang sangat menyeluruh tentang kegagalan hard drive yang menemukan bahwa sebagian besar hard drive gagal dalam 3 bulan pertama penggunaan yang berat.
Rekan kerja saya dan saya berpikir kami dapat menerapkan proses burn-in untuk semua hard drive baru kami yang berpotensi menyelamatkan kita dari sakit hati dari kehilangan waktu pada drive baru yang belum teruji. Namun sebelum kami menerapkan proses pembakaran, kami ingin mendapatkan wawasan dari orang lain yang lebih berpengalaman:
- Seberapa pentingkah membakar di hard drive sebelum Anda mulai menggunakannya?
- Bagaimana Anda menerapkan proses pembakaran?
- Berapa lama Anda membakar dalam hard drive?
- Perangkat lunak apa yang Anda gunakan untuk membakar di drive?
- Berapa banyak stres yang terlalu banyak untuk proses pembakaran?
EDIT: Karena sifat bisnis, RAID tidak mungkin digunakan sebagian besar waktu. Kami harus mengandalkan drive tunggal yang dikirimkan melalui surat ke seluruh negara cukup sering. Kami mencadangkan drive sesegera mungkin, tetapi kami masih mengalami kegagalan di sana-sini sebelum kami mendapat kesempatan untuk mencadangkan data.
MEMPERBARUI
Perusahaan saya telah menerapkan proses burn-in untuk sementara waktu sekarang, dan terbukti sangat berguna. Kami segera membakar semua drive baru yang kami miliki, memungkinkan kami menemukan banyak kesalahan sebelum garansi berakhir dan sebelum memasangnya ke sistem komputer baru. Juga terbukti bermanfaat untuk memverifikasi bahwa drive telah rusak. Ketika salah satu komputer kami mulai menemukan kesalahan dan hard drive adalah tersangka utama, kami akan menjalankan kembali proses burn-in pada drive itu dan melihat kesalahan untuk memastikan drive benar-benar masalah sebelum memulai proses RMA atau melempar itu di tempat sampah.
Proses burn-in kami sederhana. Kami memiliki sistem Ubuntu yang ditunjuk dengan banyak port SATA, dan kami menjalankan badblock dalam mode baca / tulis dengan 4 operan di setiap drive. Untuk menyederhanakan, kami menulis sebuah skrip yang mencetak peringatan "DATA AKAN DIHAPUS DARI SEMUA DRIVE ANDA" dan kemudian menjalankan badblock di setiap drive kecuali drive sistem.
Jawaban:
Jika Anda memiliki cadangan yang baik, dan sistem ketersediaan tinggi yang baik, maka tidak terlalu banyak. Karena memulihkan dari kegagalan seharusnya cukup mudah.
Saya biasanya akan menjalankan badblock terhadap drive atau sistem baru ketika saya mendapatkannya. Saya akan menjalankannya setiap kali saya menghidupkan kembali komputer dari tumpukan suku cadang. Perintah seperti ini (
badblocks -c 2048 -sw /dev/sde
) sebenarnya akan menulis ke setiap blok 4 kali setiap kali dengan pola yang berbeda (0xaa, 0x55, 0xff, 0x00). Tes ini tidak melakukan apa pun untuk menguji banyak baca / tulis acak, tetapi harus membuktikan bahwa setiap blok juga dapat ditulis dan dibaca.Anda juga bisa menjalankan bonnie ++ , atau iometer yang merupakan alat pembandingan. Ini harus mencoba sedikit menekankan drive Anda. Drive seharusnya tidak gagal walaupun Anda mencoba memaksimalkannya. Jadi sebaiknya Anda mencoba melihat apa yang bisa mereka lakukan. Saya tidak melakukan ini sekalipun. Mendapatkan patokan I / O dari sistem penyimpanan Anda tepat pada waktu pemasangan / pengaturan mungkin sangat berguna di masa mendatang ketika Anda melihat masalah kinerja.
Satu menjalankan badblocks sudah cukup menurut saya, tetapi saya percaya saya memiliki sistem cadangan yang sangat kuat, dan kebutuhan HA saya tidak setinggi itu. Saya dapat melakukan downtime untuk memulihkan layanan pada sebagian besar sistem yang saya dukung Jika Anda sangat khawatir, bahwa Anda pikir pengaturan multi-pass mungkin diperlukan, maka Anda mungkin harus memiliki RAID, cadangan yang baik, dan pengaturan HA yang baik pula.
Jika saya terburu-buru, saya mungkin melewatkan burn-in. Cadangan saya, dan RAID harus baik-baik saja.
sumber
IMNSHO, Anda seharusnya tidak mengandalkan proses burn-in untuk menghilangkan drive buruk dan "melindungi" data Anda. Mengembangkan prosedur ini dan mengimplementasikannya akan memakan waktu yang bisa lebih baik digunakan di tempat lain dan bahkan jika drive melewati burn-in, mungkin masih gagal berbulan-bulan kemudian.
Anda harus menggunakan RAID dan cadangan untuk melindungi data Anda. Setelah itu di tempat, biarkan khawatir tentang drive. Pengontrol RAID dan subsistem penyimpanan yang baik akan memiliki proses 'scrubbing' yang sering memeriksa data dan memastikan semuanya baik-baik saja.
Setelah semuanya diatasi, Anda tidak perlu melakukan penggosokan disk, meskipun seperti yang disebutkan orang lain, tidak ada salahnya melakukan tes beban sistem untuk memastikan semuanya berjalan seperti yang Anda harapkan. Saya tidak akan khawatir tentang disk individu sama sekali.
Seperti yang telah disebutkan dalam komentar, tidak masuk akal menggunakan hard drive untuk use case khusus Anda. Mengirimnya sekitar jauh lebih mungkin menyebabkan kesalahan data yang tidak akan ada ketika Anda melakukan burn-in.
Media tape dirancang untuk dikirimkan. Anda bisa mendapatkan 250MBps (atau hingga 650MBps terkompresi) dengan drive IBM TS1140 tunggal yang harus lebih cepat daripada hard drive Anda. Dan lebih besar juga - satu kartrid dapat memberi Anda hingga 4TB (tidak terkompresi).
Jika Anda tidak ingin menggunakan kaset, gunakan SSD. Mereka dapat diperlakukan jauh lebih kasar dari HDD dan memenuhi semua persyaratan yang Anda berikan sejauh ini.
Setelah semua itu, inilah jawaban saya untuk pertanyaan Anda:
Tidak semuanya.
Satu atau dua lari.
Menjalankan sederhana, katakanlah,
shred
danbadblocks
akan dilakukan. Periksa data SMART setelahnya.Tidak terlalu stres. Anda harus bisa melempar apa pun ke disk tanpa itu meledak.
sumber
Mengingat klarifikasi Anda, sepertinya proses burn-in tidak akan berguna bagi Anda. Drive gagal terutama karena faktor mekanik, biasanya panas dan getaran; bukan karena bom waktu yang tersembunyi. Proses "burn-in" menguji lingkungan instalasi sama seperti proses lainnya. Setelah Anda memindahkan barang itu, Anda kembali ke tempat Anda mulai.
Tapi di sini ada beberapa petunjuk yang dapat membantu Anda:
Drive laptop biasanya dirancang untuk menahan dorongan dan getaran yang lebih besar daripada drive desktop. Teman saya yang bekerja di toko pemulihan data selalu mengirimkan data ke klien di drive laptop karena alasan itu. Saya tidak pernah menguji fakta ini, tetapi tampaknya "pengetahuan umum" di industri tertentu.
Flash drive (mis. USB thumb drive) adalah yang paling tahan goncangan dari media apa pun yang akan Anda temukan. Seharusnya lebih kecil kemungkinannya Anda kehilangan data saat transit jika Anda menggunakan media flash.
Jika Anda mengirimkan drive Winchester, lakukan pemindaian permukaan sebelum menggunakannya. Atau lebih baik lagi, jangan digunakan. Sebagai gantinya, Anda mungkin ingin menetapkan drive tertentu sebagai drive "pengiriman", yang melihat semua penyalahgunaan, tetapi Anda tidak bergantung pada integritas data. (Yaitu: menyalin data ke drive untuk pengiriman, menyalin setelah pengiriman, sangat checksum di kedua sisi, hal semacam itu).
sumber
Proses Anda salah. Anda harus menggunakan array serangan. Di tempat saya bekerja, kami telah membuat susunan serangan kasar yang dirancang untuk dibawa berkeliling. Itu bukan ilmu roket. Pemasangan kejutan pada drive dalam penutup yang terlalu besar dengan isolator getar karet besar akan meningkatkan keandalan yang sangat besar. (Seagate constellation-es drive, sebagai contoh diberi nilai untuk guncangan 300G tetapi hanya getaran 2G, yang tidak beroperasi: sehingga wadah pengiriman perlu untuk mengisolasi drive tersebut. Http://www.novibes.com/Products&productID=62 atau http : //www.novibes.com/Products&productId=49 [bagian # 50178])
Namun, Anda benar-benar ingin membakar dalam hard drive uji jadi begini.
Saya telah bekerja pada sistem seperti hard drive dan membakar menemukan beberapa masalah tetapi ...
Untuk pengujian siklus hidup yang dipercepat dari PCB untuk mengeluarkan kesalahan, tidak ada yang mengalahkan siklus panas / dingin. (Mengoperasikan siklus panas-dingin bekerja lebih baik ... tetapi lebih sulit untuk Anda lakukan, terutama dengan bank HDD)
Dapatkan diri Anda sebuah kamar besar lingkungan enoug untuk jumlah drive yang Anda peroleh pada suatu waktu. (Ini cukup mahal, akan lebih murah untuk mengirim array serangan di sekitar) Anda tidak dapat berhemat pada ruang uji Anda akan memerlukan kontrol kelembaban dan landai diprogram.
Program dalam dua ramp suhu berulang, turun ke suhu penyimpanan minimum, hingga suhu penyimpanan maksimum, membuat landai cukup curam untuk mengecewakan insinyur aplikasi dari produsen hard drive Anda. 3 siklus dingin-panas dalam 12 jam akan melihat drive gagal cukup cepat. Jalankan drive setidaknya 12 jam seperti ini. Jika ada pekerjaan setelah itu saya akan terkejut.
Saya tidak memikirkan hal ini: Di satu tempat saya bekerja kami memiliki seorang insinyur produksi melakukan ini, untuk mendapatkan lebih banyak produk yang dikirim dengan peralatan tes yang sama, ada lonjakan besar dalam kesalahan dalam pengujian, tetapi kematian pada tingkat kedatangan turun ke praktis nol.
sumber
Saya tidak setuju dengan semua jawaban yang pada dasarnya mengatakan "Jangan repot-repot dengan burn-in, punya cadangan yang baik".
Meskipun Anda harus selalu memiliki cadangan, saya menghabiskan 9 jam kemarin (di atas shift 10 jam saya yang biasa) memulihkan dari cadangan karena sistem berjalan dengan drive yang tidak dibakar.
Ada 6 drive dalam konfigurasi RAIDZ2 (setara dengan ZFS ke RAID-6) dan kami memiliki 3 drive mati selama 18 jam pada kotak yang telah berjalan selama sekitar 45 hari.
Solusi terbaik yang saya temukan adalah membeli drive dari satu produsen tertentu (jangan campur-aduk), kemudian jalankan alat yang disediakan untuk menjalankan drive.
Dalam kasus kami, kami membeli Western Digital dan menggunakan diagnostik drive berbasis DOS dari ISO yang dapat di-boot. Kita jalankan, jalankan opsi untuk menulis sampah acak ke seluruh disk, kemudian jalankan tes SMART singkat diikuti oleh tes SMART panjang. Itu biasanya cukup untuk menghilangkan semua bad sector, baca / tulis realokasi, dll ...
Saya masih mencoba menemukan cara yang layak untuk 'batch' itu sehingga saya dapat menjalankannya terhadap 8 drive sekaligus. Mungkin hanya menggunakan 'dd if = / dev / urandom dari = / dev / apapun' di Linux atau 'badblocks'.
EDIT: Saya menemukan cara yang lebih baik untuk 'batch' itu. Saya akhirnya berhasil menyiapkan server boot PXE di jaringan kami untuk memenuhi kebutuhan tertentu, dan memperhatikan bahwa Ultimate Boot CD dapat di-boot PXE. Kami sekarang memiliki segelintir mesin sampah yang bisa di-boot PXE untuk menjalankan diagnostik drive.
sumber
Seberapa pentingkah membakar di hard drive sebelum Anda mulai menggunakannya?
Tergantung.
Jika Anda menggunakannya dalam RAID yang menyediakan redundansi (1, 5, 6, 10)? Tidak terlalu.
Jika Anda menggunakannya standaolone? Sedikit, tetapi Anda lebih baik hanya menjalankan smartd atau sesuatu untuk memonitornya, setidaknya menurut saya.
Ini secara alami mengarah pada jawaban saya untuk " Bagaimana Anda menerapkan proses burn-in? " - Saya tidak.
Alih-alih mencoba "membakar" disk, saya menjalankannya dalam pasangan yang berlebihan dan menggunakan pemantauan prediktif (seperti SMART) untuk memberi tahu saya ketika sebuah drive semakin miring. Saya telah menemukan bahwa waktu ekstra yang diperlukan untuk melakukan burn-in penuh (benar-benar melatih seluruh disk) secara substansial lebih mahal daripada berurusan dengan kegagalan disk dan swap-out.
Menggabungkan RAID dan cadangan yang baik data Anda harus sangat aman, bahkan ketika berhadapan dengan kematian bayi (atau ujung lain dari perawatan bak mandi ketika Anda mulai memiliki drive yang mati karena usia tua)
sumber
Spinrite (grc.com) akan membaca dan menulis kembali semua data pada drive. Ini adalah hal yang baik untuk dilakukan untuk drive baru bahkan jika Anda tidak mencoba membuatnya gagal. Butuh waktu lama untuk berjalan di level 4, biasanya beberapa hari untuk drive ukuran saat ini. Saya juga harus menambahkan bahwa itu tidak merusak. Bahkan jika memiliki data di tempat-tempat yang buruk itu akan bergerak dan memulihkannya. Tentu saja Anda tidak akan pernah menjalankannya di SSD.
sumber
Saya yakin pembandingan sekali seminggu dan pengecekan kesalahan akan cukup dalam "membakar" hard drive. Padahal sejak posting kamu aku belum pernah mendengar hal seperti itu.
Dikutip dari "6_6_6" di Stroagereview.com
Secara keseluruhan, saya pribadi berpikir itu adalah ide yang buruk.
EDIT: Sumber: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/
sumber
Pertama, saya setuju dengan poster lain bahwa case use Anda menunjukkan bahwa tape drive akan menjadi pilihan yang lebih baik.
Jika itu tidak mungkin, Jika Anda harus menerbangkan drive di seluruh negara, RAID yang sebenarnya tampaknya tidak menjadi pilihan, karena Anda harus memiliki lebih banyak drive yang diangkut, yang meningkatkan risiko kegagalan. Namun, bagaimana dengan skema mirroring sederhana, mengirim satu drive dan menyimpan yang lain di situs sumber?
Kemudian, jika drive gagal pada saat kedatangan, salinan baru dapat dibuat dan dikirim. Jika drive baik pada saat kedatangan, cadangan kemudian dapat digunakan kembali - baik untuk mengirim atau untuk membuat cadangan data asli.
sumber
Anda belum benar-benar mengatakan mengapa drive dikirimkan - apakah ini hanya cara pengiriman data, apakah mereka memiliki aplikasi lengkap / gambar OS yang siap untuk di-boot di PC, atau yang lainnya?
Saya setuju dengan jawaban lain bahwa RAID atau cadangan lebih baik daripada pemindaian, karena risiko pengiriman drive yang menyebabkan masalah mekanis.
Cara yang lebih umum untuk menempatkan ini adalah "bergantung pada data yang berlebihan untuk menangkap dan memperbaiki kesalahan" - baik mengirimkan 2 drive untuk setiap set data, atau mengirimkan data yang berlebihan pada satu drive. Sesuatu seperti Parchive memungkinkan Anda menambahkan tingkat redundansi ke data, memungkinkan pemulihan bahkan jika sebagian besar data rusak. Karena disk cukup murah akhir-akhir ini, hanya membeli disk yang lebih besar dari yang dibutuhkan biasanya akan lebih murah daripada memindai drive, mengirim drive pengganti, atau mengirimkan 2 drive.
Ini akan melindungi terhadap kegagalan non-bencana drive - namun masih lebih baik untuk tidak menggunakan kembali drive yang dikirim kecuali untuk pengiriman, seperti yang disarankan sebelumnya, yaitu melihatnya seperti pita yang harus diekstraksi ke drive 'nyata' yang secara permanen diinstal dan tidak dikirim ke mana pun.
Ini akan memungkinkan Anda mengirimkan sejumlah besar data (atau bahkan gambar aplikasi / OS) dan mengurangi dampak kesalahan disk ke tingkat apa pun yang ekonomis.
sumber