Ruang bebas “wajib” di SAN?

Saya bukan ahli SAN, saya menulis di sini untuk mendapatkan petunjuk tentang masalah yang terus-menerus dan menjengkelkan yang tampaknya tidak dapat dipecahkan oleh pemasok kami.

kami memiliki ENHANCE ES3160P4 SAN dengan disk 16 x 2 Tb yang telah disediakan untuk sistem pengawasan video kami. SAN telah dikonfigurasi oleh pemasok untuk menggunakan 14 disk dalam array RAID 5, dan 2 disk adalah suku cadang global. RAID biasanya dibagi menjadi 2 disk virtual dengan ukuran yang sama yang menjangkau seluruh ruang RAID. Masing-masing menghasilkan lebih dari 12 Tb. Setiap disk virtual sesuai dengan LUN tunggal, yang dilampirkan ke server video tunggal yang terus-menerus menyimpan data video dan memungkinkan pengguna untuk mengambil rekaman saat diperlukan. LUN diformat dengan NTFS dan dilampirkan ke server video Windows Server 2012 melalui iSCSI. Server video cenderung sepenuhnya menggunakan ruang yang tersedia yang mereka miliki.

Dengan konfigurasi ini disk SAN gagal dan gagal, dan setiap kali SAN tidak dapat memulihkan RAID karena disk lain gagal sementara itu. Kami kehilangan RAID seperti 4 kali dalam beberapa bulan terakhir.

Masalah ini tampaknya tidak disebabkan oleh sampel SAN yang buruk, karena kami memiliki tiga mesin lainnya dari jenis yang sama yang dikonfigurasi yang tampaknya memiliki masalah yang sama. Hanya ada satu yang tidak memiliki masalah, tetapi saat ini masih kurang digunakan.

Setelah beberapa bulan pengujian dan pemeriksaan yang tidak diketahui, pemasok akhirnya mengatakan bahwa sudah diketahui bahwa SAN tidak boleh digunakan 100% atau akan menurun cepat, juga secara fisik, dan mengatakan bahwa untuk menyelesaikan masalah, disk virtual harus dibuat menyisakan 10-15% dari total ruang yang tersedia di RAID.

Saya mencari masalah di web, dan tidak menemukan pernyataan spesifik yang mengatakan ini. Tampak bagi saya bahwa akan lebih masuk akal untuk membuat disk virtual yang mencakup seluruh RAID dan kemudian meremehkan LUN (yaitu, memungkinkan Windows memiliki ruang kosong dan menghindari fragmentasi). Jika tidak, saya tidak mengerti mengapa ENHANCE SAN memungkinkan untuk membuat disk virtual yang menjangkau seluruh RAID jika begitu "terkenal" sehingga beberapa ruang kosong harus ditinggalkan, dan mengapa pemasok mengkonfigurasi sistem seperti ini di awal ... tapi itu poin lain.

Pada akhirnya, kami ingin menyelesaikan situasi ini. Setiap saran diterima. Seperti yang saya katakan, saya bukan ahli SAN, tetapi setelah begitu banyak masalah, saya ingin benar-benar memahami apakah pemasok tahu apa yang sedang terjadi atau tidak, karena kami tidak dapat menerima situasi ini lagi.

Banyak terima kasih sebelumnya! Salam

Sunting: jenis disk Seperti dari jawaban yang tampaknya merupakan informasi yang relevan, saya menambahkan bahwa semua disk adalah model Digital Barat WD2001FYYG-01SL3.

storage-area-network disk-space-utilization diskmanagement z2k
sumber

Setiap sistem yang direkayasa dengan baik, jika membutuhkan ruang cadangan untuk berfungsi dengan baik, akan memesan ruang tanpa menawarkannya untuk digunakan oleh klien. Snapshots mungkin membutuhkan ruang dan sistem file Copy-on-Write lakukan, tetapi yang biasanya memiliki cadangan kecil untuk tujuan tersebut. Setidaknya secara default, yang tentu saja dapat ditimpa oleh pengguna jika mereka bersedia mengambil risiko.

ptman

Setidaknya disk terlihat bagus, mereka adalah 24/7 SAS disk, tetapi mereka seharusnya tidak sering gagal ...

Sven

Iossue bukan ruang kosong, ini adalah konfigurasi idiot. 14 disc dalam Raid 5 tidak stabil per matematika, sederhana seperti itu. Bahkan Raid 6 dapat mengenakan pajak. Secara umum - Raid dengan disk 2tb secara statistik tidak stabil. Titik.

TomTom

@ TomTom: Jika menurut Anda ini matematika sederhana, silakan jawab pertanyaan yang menunjukkan matematika. Matematika serbet saya mengatakan array stabil jika membaca 13 * 2TB untuk membangun kembali array yang rusak tidak akan gagal. Serangan 6 tentu saja lebih baik, itu stabil jika pembangunan kembali tidak mungkin mengalami kesalahan ganda.

MSalters

With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.

Ini persis karena, seperti yang dikatakan TomTom, disk terlalu besar untuk RAID5. Dan mungkin RAID 6 juga, FWIW. Peluang Anda untuk membangun kembali yang berhasil sama sekali tidak mendekati 100%, dan Anda tahu ini karena Anda sendiri, menyatakan bahwa Anda "seperti 4" tidak berhasil membangun kembali dalam hitungan bulan. Konfigurasi RAID Anda bodoh dan vendor Anda tidak kompeten, sesederhana itu.

HopelessN00b

Jawaban:

Dari apa yang Anda jelaskan, masalah utama adalah bahwa mereka memutuskan untuk menggunakan RAID5 untuk array yang begitu besar, yang merupakan pilihan yang sangat buruk untuk pengaturan ini, untuk alasan yang persis Anda alami: Memiliki disk ke-2 gagal selama pemulihan memecah segalanya, dan kegagalan kedua ini sangat mungkin untuk mengambil risiko itu.

Jika mereka menggunakan misalnya RAID6 sebagai gantinya, memiliki disk ke-2 yang gagal selama pemulihan tidak akan menyebabkan array yang gagal dan pemulihan dapat dilanjutkan secara normal, dengan biaya satu disk senilai kapasitas penyimpanan bersih dan dampak kinerja tertentu.

Saya tidak bisa melihat bagaimana meninggalkan ruang kosong 15% akan membantu sama sekali dengan masalah ini, dan sementara ini mungkin atau mungkin bukan ide yang baik dari sudut pandang kinerja untuk sistem file, ini jelas tidak terkait dengan RAID yang gagal. Saya menyebutnya omong kosong tentang itu.

Semua yang dikatakan, saya tidak dapat bertanya-tanya: Memiliki ini terjadi beberapa kali selama beberapa bulan tampaknya terlalu banyak bahkan untuk sistem RAID5. Saya akan menyarankan untuk melihat jenis disk yang digunakan - mungkin saja vendor Anda menggunakan drive desktop murah alih-alih drive 24/7 yang disertifikasi untuk digunakan dalam sistem seperti itu.

Sven
sumber

Terima kasih atas masukan Anda. Saya mengedit pertanyaan dengan menambahkan jenis disk.

z2k

Saya sepenuhnya memahami ini adalah posting lama, tetapi karena saya terus melihat array RAID5 besar dalam produksi, saya ingin menambahkan pemikiran saya di sini.

disk gagal terlalu sering pada umumnya merupakan kasus overheating dan / atau terlalu banyak getaran, yang dapat ditemukan pada sistem yang tidak direkayasa dengan baik atau lokasi yang buruk.
array RAID5 besar seperti itu harus sangat dihindari. Sebagai aturan umum, jauh lebih baik memiliki array RAID6 daripada RAID5 + hotspare. Dalam kasus OP, daripada memiliki disk paritas 1x dengan hotspares global 2x, jauh lebih baik memiliki disk paritas 2x dalam konfigurasi RAID6;
itu adalah kunci untuk memiliki sistem yang andal untuk pelaporan kesalahan dan status: susunan yang tidak disadari, tidak dipantau adalah resep untuk bencana.

shodanshok
sumber

terus melihat array RAID5 besar dalam produksi "Lebih besar harus lebih baik!", kan? Saya juga menambahkan bahwa array besar seperti itu memiliki kinerja HORRIBLE secara umum karena geometri yang buruk dan pertentangan antara beberapa LUN yang dibagi dari array yang sama, bahkan jika array dibangun dengan RAID6. IME tentang array terbesar yang saya rekomendasikan adalah 4 +1 RAID5 dan 8 + 2 RAID6. Beberapa pengontrol tingkat atas dapat menyembunyikan beberapa masalah kinerja dengan array yang lebih besar, tetapi pengontrol terbaik tidak akan membantu membangun kembali waktu.

Andrew Henle