Apakah pengontrol RAID biasanya mengalami masalah kompatibilitas merek drive SATA?

22

Kami telah berjuang dengan pengontrol RAID di server basis data kami, Lenovo ThinkServer RD120. Ini adalah Adaptec yang diganti merek yang oleh Lenovo / IBM dijuluki ServeRAID 8k .

Kami telah memperbaiki ServeRAID 8k ini hingga yang terbaru dan terhebat:

  • Versi BIOS RAID
  • Versi BIOS backplane RAID
  • Driver Windows Server 2008

Pengontrol RAID ini telah memiliki beberapa pembaruan BIOS penting bahkan dalam waktu singkat 4 bulan kami memilikinya, dan riwayat perubahannya hanya ... yah, menakutkan.

Kami telah mencoba strategi write-back dan write-through pada drive RAID logis. Kami masih mendapatkan kesalahan I / O terputus-putus di bawah aktivitas hard disk. Mereka tidak umum, tetapi serius ketika mereka terjadi, karena mereka menyebabkan SQL Server 2008 I / O timeout dan kadang-kadang kegagalan kumpulan koneksi SQL.

Kami berada di ujung tali kami memecahkan masalah ini. Kekurangan hal-hal hardcore seperti mengganti seluruh server, atau mengganti perangkat keras RAID, kami mulai putus asa.

Ketika saya pertama kali mendapatkan server, saya punya masalah di mana ruang drive # 6 tidak dikenali. Mengganti hard drive ke merek lain, anehnya, memperbaikinya - dan memperbarui BIOS BIOS (untuk yang pertama kali) memperbaikinya secara permanen, jadi saya dapat menggunakan drive "tidak kompatibel" asli di kotak 6. Pada firasat, saya mulai menganggap bahwa hard drive Western Digital SATA yang saya pilih entah bagaimana tidak kompatibel dengan pengontrol ServeRAID 8k.

Membeli 6 hard drive baru adalah salah satu opsi yang lebih murah di atas meja, jadi saya memilih 6 hard drive Hitachi (alias IBM, alias Lenovo) dengan teori bahwa pengontrol RAID IBM / Lenovo lebih mungkin bekerja dengan drive yang biasanya dijual bersama.

Sepertinya firasat itu terbayar - kami telah melalui tiga hari pemuatan terberat kami (mon, tue, nikah) tanpa satu pun kesalahan I / O dalam bentuk apa pun. Sebelum ini, kami secara teratur memiliki setidaknya satu "acara" I / O dalam kerangka waktu ini. Tampaknya beralih merek hard drive telah memperbaiki masalah RAID I / O terputus-putus kami!

Walaupun saya mengerti bahwa IBM / Lenovo mungkin menguji pengontrol RAID mereka secara eksklusif dengan merek hard drive mereka sendiri, saya merasa terganggu bahwa pengontrol RAID akan memiliki masalah I / O yang sangat halus dengan merek-merek hard drive tertentu.

Jadi pertanyaan saya adalah, apakah ketidakcocokan drive SATA semacam ini umum dengan pengontrol RAID? Apakah ada beberapa merek drive yang bekerja lebih baik daripada yang lain, atau "divalidasi" terhadap pengontrol RAID tertentu? Saya telah mengasumsikan bahwa semua hard disk SATA komoditas sama dan akan bekerja dengan cukup baik di setiap pengontrol RAID yang diberikan (dengan kualitas yang memadai).

Jeff Atwood
sumber

Jawaban:

6

Ya , saya pernah mengalami ini dengan kartu low-end dan driver kereta. Namun, tidak , tidak pada kartu Adaptec yang diperbarui namanya. Wow hanya itu yang bisa saya katakan. Satu hal yang perlu dipertimbangkan, mungkin itu lebih merupakan bug dengan drive daripada pengontrol RAID.

Saya tidak memiliki jawaban yang baik, tetapi karena Anda tampaknya telah kehabisan sebagian besar pilihan Anda selain mengganti kartu, (dan mengganti drive melakukan triknya) berikut adalah beberapa ide yang dapat Anda pertimbangkan untuk pemecahan masalah Anda:

  • Drive WD adalah drive RE (RAID Edition), bukan? Pemulihan kesalahan terbatas waktu itu penting, jadi jika Anda tidak memilikinya dan drive berusaha memulihkan sektor ini, Anda akan mendapatkan jeda looooong dari drive itu. Jika pengontrol RAID sedang bersabar dan tidak menjatuhkan drive Anda akan memiliki masalah besar di tangan Anda.

  • Periksa data SMART pada drive yang Anda lepaskan dan lihat apakah ada sesuatu yang menarik.

Komentar lain tentang pentingnya fitur pemulihan kesalahan terbatas waktu (TLER), dari dukungan vendor NAS / RAID:

Seperti yang saya sebutkan sebelumnya, kami selalu menyarankan pelanggan untuk menggunakan drive tingkat perusahaan jika mereka menggunakan drive dalam pengaturan RAID. Drive level perusahaan memiliki waktu respons yang lebih konsisten sehingga RAID akan lebih aman.

TorgoGuy
sumber
tak tahu, tetapi mereka memang memiliki "pemulihan kesalahan terbatas waktu khusus RAID" seperti yang ditunjukkan pada tab spesifikasi di sini .. newegg.com/Product/Product.aspx?Item=N82E16822136143
Jeff Atwood
Ya, Anda punya yang benar. (Perhatikan RE2 yang tercantum dalam judul.) Itu menembak teori itu! Tentu saja, saya masih akan memeriksa data SMART hanya dalam kasus (yeah, aku tahu yang jarang berguna) ...
TorgoGuy
ternyata drive agak serpihan, setelah semua. Brent Ozar mewarisi drive lama kami dan harus ke RMA setidaknya salah satu dari mereka untuk keanehan ..
Jeff Atwood
juga, diskusi terkait yang menarik pada fitur TLER yang tampaknya beberapa vendor lihat sebagai perangkat lunak khusus yang mereka buat untuk membuat drive secara ajaib "enterprisey" .. fatwallet.com/forums/expired-deals/993547
Jeff Atwood
13

Bahkan untuk non-RAID, hard drive desktop biasa-biasa saja, membeli drive dari vendor (pada markup konyol yang diharapkan) sering dapat membuat perbedaan. Sebagai contoh, Apple berhati-hati untuk hanya mengirimkan drive yang benar-benar mampu menghormati F_FULLSYNC fcntl()bendera Mac OS X , yang berjalan jauh ke arah memastikan hal-hal seperti backup Time Machine bekerja dengan andal.

Sekali lagi, ini adalah penggunaan desktop vanilla biasa tanpa melibatkan RAID. Apa pun yang lebih rumit dari itu dan Anda pasti ingin membeli, jika bukan drive harga mahal milik vendor, maka setidaknya model drive yang Anda tahu pasti ada dalam daftar "disetujui" vendor.

Jadi, untuk menjawab pertanyaan Anda, apakah itu biasa? Saya akan mengatakan, ya, lebih umum dari yang Anda kira, bahkan di luar ranah perusahaan.

John Siracusa
sumber
Saya pasti akan mendapatkan model drive yang biasanya dijual oleh vendor jika Anda akan melakukan upgrade drive DIY dengan biaya lebih rendah. Saya juga merekomendasikan untuk tidak membeli drive (atau pengendali) sistem baru saja mulai dikirim sehingga Anda tidak menjadi orang yang menemukan bug! SATA tampaknya lebih serpihan dari SAS dalam hal ini untuk beberapa alasan ...
Christopher Edwards
4

Saya pikir itu tidak umum. Namun, segera setelah Anda mulai menggunakan pengontrol penyimpanan perusahaan, apakah itu pengontrol RAID SAN atau mandiri, Anda biasanya ingin mematuhi daftar kompatibilitasnya dengan lebih cermat.

Anda mungkin dapat menghemat uang pada harga stiker dengan membeli berbagai disk murah, tapi itu mungkin salah satu area terakhir yang ingin saya hemat - mengingat pentingnya data dalam sebagian besar skenario.

Dengan kata lain, ketidakcocokan eksplisit sangat jarang, tetapi kepatuhan kompatibilitas eksplisit dianjurkan.

Mark S. Rasmussen
sumber
4

Saya tidak akan bermimpi menggunakan disk SATA untuk server - tidak satu pun dari mereka memiliki siklus tugas yang diharapkan dari drive kualitas server dan mereka tidak memiliki set perintah kaya yang SCSI / SAS miliki untuk memantau kinerja dan kesehatan drive. Server Lenovo murah dan bagus jika Anda memiliki banyak server tanpa satupun yang benar-benar penting, tetapi ada alasan bahwa server 300-series HP menyumbang 40% dari pasar - mereka berfungsi. Khususnya pengontrol disk 'SmartArray' mereka tidak ada bandingannya dalam hal keandalan dan kinerja dan jaminan pra-kegagalan mereka merupakan tambahan yang diterima. Bukan yang termurah tapi berapa nilai waktu Anda? Saya telah membeli server mereka (well Compaq first tbh) selama dua puluh tahun sekarang dan tidak memiliki masalah apa pun membeli 500-800 yang baru setahun yang saya lakukan. Serius memeriksanya.

Chopper3
sumber
2

Jawabannya seperti biasa adalah "itu tergantung".

Untuk penyimpanan perusahaan tertentu (katakanlah EMC), vendor akan secara khusus memenuhi syarat drive dan bahkan pergi sejauh memuat custom firmware.

Seperti yang dikatakan Mark, saya merasa itu yang terbaik ketika Anda mengikuti daftar vendor yang disetujui jika ada. Penghematan biaya awal lebih besar daripada waktu yang dihabiskan untuk mencoba memburu gremlin.

Jauder Ho
sumber
benar, tetapi drive SATA Hitachi "khusus" Lenovo adalah $ 250, dan saya dapat membeli drive Hitachi yang sama dengan $ 60. Itu diferensial hampir 5x, dengan kata lain .. $ 1.250 versus $ 300. Saya bersedia melakukan beberapa eksperimen untuk grand ..
26980 Jeff Atwood
Saya tahu markup kadang-kadang konyol, Anda harus melihat harga untuk drive EMC! Tetapi intinya adalah seberapa besar Anda menilai data Anda. Memiliki penyimpanan yang andal membutuhkan biaya $$$. Don MacAskill dari Smugmug mengoceh tentang Sun 7410 dan itu mungkin sesuatu yang ingin Anda periksa.
Jauder Ho
Saya ingin tahu apakah ada kartu 3ware yang didukung. Saya memiliki pengalaman yang baik dengan mereka selama bertahun-tahun.
Jauder Ho
2

Anda memiliki pengontrol SAS, mungkin itu masalahnya. Sementara protokol SAS dapat digunakan untuk perintah ATA tunnel, pensinyalan pada level fisik sedikit berbeda (SAS menggunakan tegangan yang lebih tinggi dan diferensial yang lebih luas). Hampir semua pengontrol dapat berbicara langsung ke drive SATA, tetapi jika ada backplane (besar? Jelek?) Di tengah sinyal mungkin terganggu. Biasanya di dunia perusahaan yang memasang driver SATA secara langsung ke pengontrol SAS tidak secara resmi didukung, Anda harus menggunakan interposer (papan logika kecil yang menghubungkan langsung ke disk yang di satu sisi memahami protokol SAS penuh, di sisi lain berbicara ATA - dengan cara ini backplane membawa pensinyalan SAS yang lebih tinggi).

Agak terkait: pencampuran drive SAS dan SATA pada backplane yang sama cenderung gagal, karena pensinyalan semua drive (termasuk SAS) diturunkan ke level SATA.

Luca Tettamanti
sumber
1

Kemungkinan besar drive WD Anda memerlukan pembaruan firmware . Lihat catatan IBM ini untuk mengunduh dan menerapkanig pembaruan. Seperti yang dapat Anda lihat dari instruksi , drive WD jauh dari satu-satunya yang bermasalah.

Jika Anda akan meletakkan drive Anda di lingkungan server pajak, Anda pasti akan mengalami lebih banyak masalah daripada di konfigurasi desktop antusias yang khas.

Bisakah Anda mengomentari mengapa Anda memilih untuk menggunakan seri Deskstar drive kelas desktop daripada seri Ultrastar kelas Enterprise / RAID ? Apakah Anda merasa biaya tambahan tidak sebanding dengan keandalan dan kecepatan tambahan?

Peter Stuer
sumber
ketika datang ke hard drive, saya percaya banyak dari mereka - array murah dan mudah diganti, di mana kinerja berasal dari skala.
Jeff Atwood
Berhati-hatilah saat menggunakan drive tingkat desktop dengan pengontrol penyimpanan kelas perusahaan. Drive tingkat perusahaan (biasanya) mendukung perintah dan pertanyaan yang tidak dimiliki drive kelas desktop. Server perusahaan yang pernah saya warisi menggunakan drive tingkat desktop dan sering melihat kesalahan saat pengontrol berusaha mendapatkan informasi suhu dan kesehatan drive dari drive. Karena pengontrol perusahaan berasumsi bahwa Anda akan menggunakan drive perusahaan, pengontrol tidak dapat dengan anggun menangani drive yang tidak menanggapi pertanyaan ini (karena itu bukan pengaturan yang didukung). Semuanya sangat YMMV
bta
0

Sebagai seorang insinyur yang bekerja dengan pengontrol RAID, saya dapat mengatakan bahwa tidak jarang beberapa merek drive mengalami masalah dengan pengontrol RAID tertentu. Setiap drive memiliki kebiasaan khusus, dan setiap model drive yang tercantum pada daftar "perangkat yang kompatibel" pengendali akan memiliki kebiasaan yang dicatat oleh pengontrol. Agar model drive muncul di daftar, ia harus memenuhi standar pabrikan pengontrol untuk kinerja dan keandalan. Setiap drive yang tidak ada dalam daftar ini mungkin berfungsi, tetapi karena ia belum melalui pengujian ketat yang sama dengan perangkat "yang disetujui", YMMV.

Secara khusus, protokol SATA memungkinkan untuk perintah khusus vendor (non-standar) yang dapat ditentukan oleh drive atau pengontrol. Dalam kasus Anda, Anda mungkin melihat pengontrol yang mengharapkan drive untuk merespons perintah kepemilikan tertentu atau drive yang mengharapkan untuk melihat perintah kepemilikan yang tidak pernah tiba.

Kemungkinan lain adalah bahwa drive bermasalah Anda tidak berperilaku sangat baik di bawah beban kerja tertentu yang penuh tekanan, dan perilaku yang Anda lihat sudah cukup bagi Adaptec / IBM untuk tidak mencantumkan model drive yang didukung.

Sayangnya, protokol penyimpanan (SATA, SAS, dll.) Tidak sebagus antarmuka standar lainnya (USB, PCI, dll.) Di mana yang Anda butuhkan hanyalah bus dan perangkat yang berbicara bahasa yang sama dan semuanya baik-baik saja. Terutama ketika menyangkut peralatan tingkat Enterprise, produsen perangkat dan produsen drive menghabiskan banyak waktu dan energi kolaboratif untuk memastikan bahwa pelanggan mendapatkan kinerja terbaik dari konfigurasi yang digunakan oleh sebagian besar pelanggan (yaitu, menggunakan drive dari daftar "perangkat yang didukung"). Drive yang tidak ada dalam daftar itu mungkin telah dirancang untuk berkinerja optimal dengan merek pengontrol yang berbeda, dan kesalahan yang Anda lihat adalah efek samping dari pengoptimalan.

bta
sumber