Dapatkah drive “perusahaan” diganti secara aman dengan near / midline dalam beberapa situasi?

22

Ketika menentukan server, seperti (saya akan berasumsi) banyak insinyur yang tidak ahli dalam penyimpanan, saya biasanya akan memainkannya dengan aman (dan mungkin menjadi budak pemasaran) dengan menstandarisasi minimal 10k SAS drive (dan karenanya " enterprise "-tingkat dengan siklus tugas 24x7, dll. untuk data" sistem "(biasanya OS dan kadang-kadang aplikasi), dan cadangan penggunaan drive 7.2k mid / nearline untuk penyimpanan data non-sistem di mana kinerja tidak signifikan faktor. Ini semua mengasumsikan disk 2,5 "(SFF), karena disk 3,5" (LFF) hanya benar-benar relevan untuk persyaratan IOP kapasitas tinggi dan rendah.

Dalam situasi di mana tidak ada sejumlah besar data non-sistem, saya biasanya akan meletakkannya di disk / array yang sama dengan data sistem, artinya server hanya memiliki 10k SAS drive (umumnya tipe "One Big RAID10" setup hari ini). Hanya jika ukuran data non-sistem signifikan, saya biasanya mempertimbangkan meletakkannya pada array terpisah 7,2k mid / nearline disk untuk menjaga biaya / GB tetap rendah.

Ini membuat saya bertanya-tanya: dalam beberapa situasi, dapatkah disk 10k dalam array RAID10 telah diganti dengan disk 7.2k tanpa konsekuensi negatif yang signifikan? Dengan kata lain, apakah kadang-kadang saya terlalu banyak berspekulasi (dan membuat vendor perangkat keras senang) dengan tetap menggunakan minimal 10k disk kelas "perusahaan", atau adakah alasan bagus untuk selalu berpegang pada hal itu sebagai minimum?

Misalnya, ambil server yang bertindak sebagai hypervisor dengan beberapa VM untuk perusahaan kecil biasa (misalnya 50 pengguna). Perusahaan memiliki pola I / O rata-rata tanpa persyaratan khusus. Khas 9-5, Senin-Jumat kantor, dengan cadangan berjalan selama beberapa jam semalam. VMs mungkin bisa berupa DC dan server file / print / app. Server memiliki array RAID10 dengan 6 disk untuk menyimpan semua data (data sistem dan non-sistem). Untuk mata non-ahli saya, sepertinya disk mid / nearline mungkin baik-baik saja. Mengambil disk HP sebagai contoh:

  • Beban kerja: Disk garis tengah dinilai untuk <40% beban kerja. Dengan kantor hanya buka selama 9 jam sehari dan rata-rata I / O selama periode itu tidak mungkin mendekati maksimum, tampaknya beban kerja tidak mungkin akan lebih dari 40%. Bahkan dengan beberapa jam I / O intens di malam hari untuk cadangan, tebakan saya adalah masih di bawah 40%
  • Kecepatan: Meskipun disk hanya 7.2k, kinerja ditingkatkan dengan menyebarkannya di enam disk

Jadi, pertanyaan saya: apakah masuk akal untuk menempel minimal 10k drive SAS, atau apakah 7.2k disk garis tengah / dekat garis sebenarnya lebih dari cukup dalam banyak situasi? Jika demikian, bagaimana cara mengukur di mana garis itu dan menghindari menjadi budak ketidaktahuan dengan memainkannya dengan aman?

Pengalaman saya sebagian besar dengan server HP, sehingga di atas mungkin memiliki sedikit kecenderungan HP untuk itu, tetapi saya akan berasumsi prinsip-prinsipnya adalah vendor independen.

dbr
sumber
3
Disk midline SFF 7.2k tidak masuk akal karena keterbatasan kapasitas dan tugas. Jika Anda berbicara tentang peralatan HP (spesialisasi saya) , drive SAS 900GB dan 1.2TB 10k akan menjadi pilihan terbaik jika Anda tidak menggunakan SSD. Jika Anda berada di AS, 900GB SAS harus ~ $ 300-400 jika Anda memiliki vendor yang bagus.
ewwhite
1
Keluhan tata bahasa minor: jika Anda mengatakan "ganti X untuk Y", itu berarti Anda memiliki Y untuk memulai dan menggantinya dengan X.
pjc50
2
Anda yakin tinggal di tahun 2015? Karena sejak beberapa tahun drive OS saya adalah SSD kecil (menghemat daya, dll.) Dan saya tidak akan menyentuh HD apa pun untuk kinerja tinggi.
TomTom
1
@ TomTom Tidak, saya di tahun 2016 :) Dengan sangat serius, saya tidak benar-benar mempertimbangkannya. Seperti yang saya katakan di posting saya, saya biasanya akan pergi untuk pendekatan "satu RAID 10 besar" hari ini, jadi OS akan berjalan di sana. Memisahkan OS ke SSD terpisah tampaknya sia-sia jika tidak benar-benar diperlukan. Saya tertarik mendengar pendapat Anda. Apakah Anda menggunakan SSD tunggal atau pasangan cermin? Mungkin ini akan menjadi pertanyaan SF yang bagus dengan sendirinya ...
dbr
1
Pasangan cermin untuk OS. HP bahkan menjual OS / SSD khusus boot.
ewwhite

Jawaban:

25

Ada persimpangan menarik dari desain server, teknologi disk, dan ekonomi di sini:

Lihat juga: Mengapa disk Large Form Factor (LFF) masih cukup lazim?

  • Pergerakan menuju rackmount padat dan server faktor bentuk kecil. Misalnya Anda tidak melihat banyak penawaran menara lagi dari produsen utama, sedangkan lini produk yang lebih padat menikmati revisi yang lebih sering dan memiliki lebih banyak opsi / ketersediaan.
  • Stagnasi dalam pengembangan disk perusahaan 3,5 "(15k) - 600GB 15k 3.5" adalah sebesar yang Anda bisa.
  • Kemajuan lambat dalam kapasitas disk 2,5 "dekat garis (7,2 k) - 2TB adalah yang terbesar yang akan Anda temukan di sana.
  • Peningkatan ketersediaan dan harga yang lebih rendah dari SSD berkapasitas tinggi.
  • Konsolidasi penyimpanan ke penyimpanan bersama. Beban kerja server tunggal yang membutuhkan kapasitas tinggi terkadang dapat diperbaiki melalui SAN.
  • Pematangan semua-flash dan array penyimpanan hybrid, ditambah masuknya startup penyimpanan.

Di atas adalah mengapa Anda biasanya menemukan produsen berfokus pada server 1U / 2U dengan disk drive 8-24 2,5 ".

Disk 3.5 "adalah untuk kasus penggunaan berkapasitas tinggi (TTP +) berkapasitas rendah IOP. Mereka terbaik untuk lampiran penyimpanan eksternal atau penyimpanan SAN yang digawangi oleh beberapa bentuk caching. Dalam kecepatan 15k RPM perusahaan, mereka hanya tersedia hingga 600GB.

2.5 "10k RPM spinning disk adalah untuk kebutuhan IOPS yang lebih tinggi dan umumnya tersedia hingga kapasitas 1.8TB.

2.5 "7.2k RPM spinning disk adalah panggilan yang buruk karena mereka tidak menawarkan kapasitas, kinerja, umur panjang atau keuntungan harga. Misalnya, biaya drive SAS 10GB 900GB sangat dekat dengan RPM SAS 1K 7.2K. Mengingat harga yang kecil Perbedaannya, drive 900GB adalah pembelian yang lebih baik. Dalam contoh 1.8TB 10k SAS versus 2.0TB 7.2k SAS , harganya juga sangat dekat. Jaminan masing-masing adalah 3 tahun dan 1 tahun.

Jadi untuk server dan penyimpanan internal 2,5 ", gunakan SSD atau 10k. Jika Anda membutuhkan kapasitas dan memiliki bay drive 3,5" yang tersedia secara internal atau eksternal, gunakan RPM 7.2k.

Untuk kasus penggunaan yang Anda jelaskan, Anda tidak terlalu mengkonfigurasi server. Jika mereka memiliki drive bay 2,5 ", Anda harus benar-benar menggunakan 10k SAS atau SSD. Disk garis tengah adalah kehilangan kinerja, kapasitas, memiliki garansi yang jauh lebih singkat dan tidak akan menghemat banyak biaya.

putih
sumber
Terima kasih telah meluangkan waktu untuk menyatukan ini. Saya akan memiliki kesempatan untuk memikirkannya besok. Hanya dengan melihat sekilas pada harga, sepertinya sekitar 30% lompatan antara 1TB 7.2k dan 900GB 10k, yang tidak masif (saya di Inggris jika itu penting). Mungkin bisa menjadi faktor jika Anda memiliki anggaran yang ketat di mana Anda mencoba melakukan penghematan yang wajar di beberapa tempat dan pemilihan disk hanyalah salah satunya. Saya akan tertarik mendengar pendapat Anda tentang pertanyaan dari sudut pandang teknis murni juga.
dbr
Dari perspektif teknis, tidak ada keuntungan untuk disk 7200 RPM 2.5 ". Jika biayanya tampak terlalu jauh, teruslah berbelanja. Ada sedikit perbedaan di pasar ini. Jika ini untuk keperluan boot disk, SSD adalah alternatif yang baik. Tetapi saya tidak dapat memikirkan alasan saya menggunakan disk HP 7200 2.5 "di server hari ini. Baca juga quickspec HP Anda dengan cermat. Drive garis tengah memiliki jaminan yang lebih pendek.
ewwhite
1
Secara umum jawaban ini bagus. Tapi seperti yang lainnya, "itu tergantung." Dalam contoh disk 900GB 10k vs 1TB 7200, disk 1TB akan berjalan lebih dingin dan karenanya mungkin lebih lama, dan akan lebih murah. Jika Anda tidak memerlukan kinerja tambahan, maka itu buang-buang uang, baik biaya modal asli dan operasi. Untuk satu server, tidak masalah. Untuk 10, itu mulai bertambah.
Dan Pritts
2
Benarkah disk yang berjalan lebih lambat akan bertahan lebih lama? Adakah artikel yang saya lewatkan?
vasin1987
2
Dari perspektif vendor / produsen, ya. Mereka mengarahkan Anda ke 10k dan SSD untuk 2,5 ". Jika Anda bertinju putih, lanjutkan 7200 RPM. Bahkan, vendor penyimpanan ZFS saya, PogoStorage , gunakan 7200 RPM 2.5" untuk susunan ZFS mereka karena caching dan tiering SSD menghilangkan perlu spec disk lebih cepat.
ewwhite
5

Setidaknya ada beberapa hal yang dapat menyebabkan masalah dengan BEBERAPA jenis drive:

  • Drive yang tidak dimaksudkan untuk menangani beban getaran sasis yang memiliki banyak drive (masalah yang tidak mungkin terjadi pada drive apa pun yang ditentukan sebagai RAID / mampu-NAS)

  • Firmware yang tidak memungkinkan TLER, atau perlu konfigurasi ulang manual yang memakan waktu untuk mengaktifkannya (ditto)

  • Drive yang belum pernah diuji dengan pengontrol RAID yang digunakan, dan mungkin memiliki bug yang tidak dikenal yang muncul dalam pengaturan seperti itu

  • Cache penulisan drive internal yang berperilaku dengan cara (penulisan fisik tidak sesuai atau sangat tertunda) yang menyebabkan banyak kebingungan jika hard shutdown (pengontrol RAID harus dikonfigurasi untuk memaksakan OFF ini. Potensi masalah jika firmware harus diabaikan Lihat drive yang belum diuji :)

  • Drive mungkin melakukan rutinitas pemeliharaan internal sesekali yang dapat membuat drive berperilaku lambat, atau merespons dengan penundaan yang cukup, untuk membuat pengontrol RAID menganggapnya gagal (terkait dengan TLER)

  • SATA secara umum, seperti yang biasanya diterapkan, memiliki lebih sedikit perlindungan dibandingkan dengan SAS terhadap drive dengan elektronik yang sepenuhnya ditembak atau digantung yang menggantung semuanya pada pengontrol (bukan risiko teoretis, kombinasi merek disk + pengontrol tertentu menyukai mode kegagalan).

pemeras
sumber
1
Ini sepertinya alasan untuk menggunakan drive yang memenuhi syarat dengan perangkat keras server dan tumpukan aplikasi, tetapi tidak secara khusus sekitar 10k vs 7k2 rpm.
poolie
1
Pertanyaannya dapat dengan mudah dipahami (mis?) Untuk "bisakah disk 7.2k non-perusahaan, atau yang ditunjuk untuk penggunaan perusahaan drive tunggal, digunakan dalam aplikasi?". Dan "dengan aman" biasanya menyiratkan menangani risiko kehilangan data atau kegagalan terkait downtime.
rackandboneman
4

Masalah besar :

(Mungkin sedikit di luar topik - tapi saya penting ! )

Ketika Anda berurusan dengan SSD - (seperti yang sering terjadi, atau mungkin kasing atau godaan) - banyak SSD memiliki masalah buruk di mana SSD tidak selalu dapat pulih dari pemadaman listrik spontan!

Ini adalah masalah kecil dengan HDD. HDD biasanya memiliki kapasitansi yang cukup untuk menggerakkan logika mereka dan momentum sudut yang cukup untuk membawa piring-piring dengan menyelesaikan penulisan blok 512-byte - jika daya hilang pada pertengahan penulisan. Sekali-sekali jarang , ini tidak akan berhasil, menghasilkan sesuatu yang disebut "sobek tulis" - di mana satu blok dapat ditulis sebagian. Tulisan parsial (albiet jarang) akan menyebabkan kegagalan checksum pada blok - yaitu bahwa blok individu akan buruk. Ini biasanya dapat dideteksi sebagai buruk oleh sirkuit disk itu sendiri, dan diperbaiki oleh pengontrol RAID hulu.

SSD adalah binatang yang berbeda. Biasanya menerapkan sesuatu yang disebut "wear leveling" - di mana mereka tidak hanya menulis "blok X" ke lokasi fisik untuk "blok X" seperti HDD. Sebagai gantinya, mereka mencoba menulis ke tempat yang berbeda di media flash - dan mereka mencoba untuk menggabungkan atau menggabungkan penulisan (menggunakan sedikit buffering). Menulis ke berbagai tempat melibatkan pembuatan "peta" di mana segala sesuatu ditulis, yang juga disangga dan ditulis dengan cara yang dimaksudkan untuk mengurangi leveling keausan. Bagian dari perataan keausan bahkan dapat melibatkan pemindahan data yang sudah ada di perangkat dan bahkan belum ditulis.

Masalah ini adalah bahwa ketika SSD kehilangan daya - ia memiliki banyak data dalam memori (tidak rata), ia memiliki beberapa data yang telah ditulis ke lokasi yang berbeda / diubah - dan memiliki peta-peta ini di memori itu sendiri yang perlu memerah keluar untuk memahami struktur semua data pada perangkat.

BANYAK SSD tidak memiliki logika atau sirkuit untuk menjaga pengontrolnya tetap hidup dan hidup cukup lama dengan power-out spontan untuk secara aman menyiram semua data ini ke flash sebelum mati. Ini tidak hanya berarti bahwa satu blok yang Anda tulis sekarang dapat berada dalam jeprody - tetapi blok lain - bahkan semua blok pada perangkat dapat bermasalah. Banyak perangkat juga memiliki masalah di mana mereka tidak hanya kehilangan semua data pada perangkat, tetapi perangkat itu sendiri menjadi batu bata, dan tidak dapat digunakan.

Ini semua adalah teori yang benar - tetapi (bekerja di industri penyimpanan) - Saya / kami telah melihat ini terjadi terlalu sering pada terlalu banyak perangkat - termasuk di beberapa laptop pribadi kami!

Banyak vendor telah mendiskusikan pembuatan "SSD kelas perusahaan" di mana secara khusus menambahkan perangkat ("super-caps") dan sirkuit lain untuk memungkinkan "flush" bersih - tetapi sangat sulit untuk menemukan perangkat apa pun yang secara khusus menyatakan sebagai bagian dari itu lembar data yang memiliki perlindungan yang cukup, eksplisit, teruji dari peristiwa semacam itu dan akan melindungi dari peristiwa semacam itu.

Tentunya jika Anda membeli "array penyimpanan kelas atas" dari vendor papan atas yang memanfaatkan teknologi flash, baik drive mereka - atau sistem mereka secara keseluruhan telah dirancang dengan semua ini di akun. Pastikan sudah!

Masalah sehubungan dengan pertanyaan Anda adalah: Jika Anda memiliki array RAID - dan beberapa disk adalah "buruk" SSD tanpa perlindungan ini - jika Anda mendapatkan "pemadaman listrik spontan" - Anda bisa kehilangan SEMUA data pada disk GANDA membuat rekonstruksi RAID tidak mungkin dilakukan.

"Tapi saya menggunakan UPS"

Biasanya juga penting untuk dicatat bahwa "pemadaman listrik spontan" dapat mencakup situasi seperti BSOD dan kunci kernel / crash / panik - di mana Anda tidak punya pilihan untuk memulihkan dengan menarik steker pada sistem.

Brad
sumber
2
Jarang ada orang yang menarik stekernya pada sistem yang digantung (kecuali itu merusak disk) dengan cukup cepat sehingga tidak memungkinkan disk jenis apa pun untuk menyiram cache mereka. Dan dalam hal itu, HDD konvensional dengan cache yang diaktifkan dapat menghasilkan kekacauan yang sama, meskipun dengan kemungkinan lebih kecil untuk melakukan pemblokiran tetapi masih memiliki peluang besar untuk kerusakan data - Reiserfs, NTFS awal, mereka cenderung berakhir dengan tembakan itu karena mereka menangani data jurnal sedang ditulis untuk suatu kegiatan yang tidak benar-benar terjadi (atau sebaliknya, keduanya kemungkinan dengan pembilasan cache yang rusak) SANGAT buruk.
rackandboneman
2
SSD yang dirancang dengan baik tidak akan merusak atau kehilangan data jika data belum sepenuhnya memerah. Karena lokasi fisik masing-masing sektor logis dapat berubah pada setiap penulisan, versi data sebelumnya di setiap sektor logis harus tetap ada jika pembaruan belum dihapus. Anda masih dapat kehilangan data jika firmware menderita cacat desain atau bug implementasi.
kasperd
1
SSD konsumen @kasperd dijual berdasarkan kecepatan, mereka melakukan kompromi untuk melakukan itu. Meskipun seharusnya mungkin untuk mempertahankan integritas seperti yang Anda sarankan, faktanya adalah bahwa sebagian besar produsen drive (setidaknya di tingkat konsumen) tidak melakukannya. Juga ketika mereka mencapai EOL paling tidak gagal dengan anggun.
JamesRyan
@JamesRyan Cerita tentang produsen yang curang dengan pembilasan data ke penyimpanan yang persisten agar tampil lebih baik di beberapa metrik kinerja bukanlah hal baru. Kami telah mendengar tentang hal itu terjadi juga pada zaman hard disk. Bukan karena ini yang diinginkan konsumen. Itu karena konsumen hanya melihat beberapa metrik dan tidak tahu bagaimana produsen telah berbuat curang dalam bidang lain untuk mencapainya. Terkadang pabrikan lolos dari kecurangan, terkadang tidak. (Saya yakin seseorang dapat memunculkan analogi mobil yang terinspirasi oleh berita terbaru.)
kasperd
2
SSD adalah binatang yang berbeda. Mereka memiliki tabel peta yang memberi tahu DI MANA datanya. Mereka memindahkan dan merelokasi data dan menyesuaikan peta-peta ini. Mereka PERLU untuk menyatukan tulisan mereka (yaitu menunda, mengelompokkannya & menulis nanti) untuk menghindari amplifikasi penulisan. Peta itu sendiri tidak dapat ditulis secara agresif dan harus mengikuti aturan yang sama. Kita dapat tentang "desain yang tepat" dan cacat - tetapi SSD bukan "sederhana" seperti filesystem yang dijurnal (yang tidak sederhana). Saya berbicara dari BANYAK pengalaman, pengujian, spesifikasi dan saya mungkin atau mungkin tidak berbicara dengan produsen - atau dua - atau tiga dalam pekerjaan saya.
Brad