ZFS - Dampak kegagalan perangkat cache L2ARC (Nexenta)

10

Saya memiliki server HP ProLiant DL380 G7 yang berjalan sebagai unit penyimpanan NexentaStor . Server memiliki RAM 36GB, 2 LSI 9211-8i pengontrol SAS (tanpa ekspander SAS), 2 drive sistem SAS, 12 drive data SAS, disk hot-spare, cache L2ARC Intel X25-M L2ARC, dan akselerator DDRdrive PCI ZIL. Sistem ini melayani NFS ke beberapa host VMWare. Saya juga punya sekitar 90-100GB data deduplikasi pada array.

Saya mengalami dua insiden di mana kinerja merosot tiba-tiba, membuat para tamu VM dan konsol Nexenta SSH / Web tidak dapat diakses dan memerlukan reboot penuh array untuk memulihkan fungsionalitas. Dalam kedua kasus, itu adalah Intel X-25M L2ARC SSD yang gagal atau "ditolak". NexentaStor gagal memberi tahu saya tentang kegagalan cache, namun peringatan FMA ZFS umum terlihat di layar konsol (tidak responsif).

masukkan deskripsi gambar di sini

The zpool statusOutput menunjukkan:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Ini tidak memicu peringatan apa pun dari dalam Nexenta.

Saya mendapat kesan bahwa kegagalan L2ARC tidak akan berdampak pada sistem. Tapi dalam kasus ini, itu pasti pelakunya. Saya belum pernah melihat rekomendasi ke RAID L2ARC. Menghapus SSD yang buruk sepenuhnya dari server membuat saya kembali berjalan, tetapi saya khawatir tentang dampak kegagalan perangkat (dan mungkin juga kurangnya pemberitahuan dari NexentaStor).

Edit - Apa SSD pilihan terbaik saat ini untuk aplikasi cache L2ARC hari ini?

putih
sumber
Mungkinkah porta SSD atau SATA Anda mengalami masalah perangkat keras?
Tegbains
Ini adalah backplane HP SAS. Saya belum pernah melihat ada yang gagal atau mengalami masalah dalam banyak penyebaran (Linux), tapi saya cukup yakin bahwa kegagalan itu adalah fungsi SSD kelas konsumen. Saya bisa menerima kegagalan, tetapi dampaknya pada disk yang tersisa dan sistem penyimpanan keseluruhan adalah masalah yang lebih besar.
ewwhite
Khususnya, Pogo Linux (yang saya pahami sebagai integrator / reseller terbesar Nexenta) tidak lagi menawarkan perangkat Intel X25 sebagai opsi untuk L2ARC atau ZIL karena masalah dengan versi selanjutnya dari firmware Intel.
Skyhawk
Dan penggantian yang disarankan adalah (merek, model, harga)?
ewwhite
1
Omong-omong, seri Intel 320 baru mungkin menarik untuk dicoba sebagai perangkat L2ARC atau bahkan ZIL: ini didukung oleh kapasitor, dan meskipun daya tahan penulisan terbatas (hingga 60 terabyte tergantung pada model), persentase keausan yang tersisa dapat dilacak menggunakan atribut SMART E9 (mulai dari 100 dan dihitung mundur hingga 1). Saya menduga bahwa banyak pengguna ZFS dapat mengganti perangkat ini sesering yang diperlukan untuk mencegah E9 mendekati 1, tanpa biaya kumulatif bahkan mendekati biaya drive SLC berukuran sebanding.
Skyhawk

Jawaban:

10

ZFS tidak melakukan disk I / O, driver perangkat di bawah ZFS melakukan disk I / O. Jika perangkat tidak merespons secara tepat waktu, atau seperti dalam kasus ini, mengganggu semua perangkat lain di expander, maka itu tidak terlihat sebagai kegagalan ZFS. Semua ZFS melihat adalah I / O lambat.

Ada bug dalam firmware Intel X-25M yang memengaruhi perilaku mereka selama beban berat dan dapat menyebabkan reset badai. Masalah ini mempengaruhi semua OS dan tidak dapat diselesaikan pada lapisan OS. Silakan hubungi pemasok perangkat keras Anda untuk perbaikan atau perbaikan.

Jika pembacaan diharapkan dipenuhi oleh L2ARC, maka pembacaan akan dicoba di sana. ZFS kemudian bergantung pada driver lapisan bawah untuk melaporkan kesalahan. Untuk kasus ini, drive terus melakukan reset dan coba lagi selama 5 menit sebelum menyatakan I / O gagal, tergantung pada driver, perangkat, dan pengaturan batas waktu default. Hanya setelah driver lapisan bawah menyatakan I / O sebagai gagal ZFS akan mencoba lagi di kolam.

Pelihat volume dan pelacak pemeriksaan NexentaStor mencari pesan kesalahan tambahan dan memperingatkan Anda melalui email dan kesalahan log. Pelari pemeriksaan disk telah ditingkatkan dalam rilis 3.1 untuk membantu mengingatkan Anda untuk secara khusus kondisi yang ditunjukkan oleh firmware rusak di SSD.

Intinya: perangkat keras Anda rusak dan perlu diperbaiki atau diganti.

Richard Elling
sumber
2
Terima kasih. Jadi saya tidak akan menggunakan Intel X-25 lagi. Saya ingin yang teruji, rekomendasi untuk perangkat SSD L2ARC baru untuk menggantinya.
ewwhite
3

Apakah Anda menghubungkan X25-M SSD ke backplane? Ada masalah yang diketahui dengan Nexenta dan mengakses L2ARC melalui backplane. Taruhan terbaik Anda adalah menghubungkan SSD langsung ke port SATA pada motherboard. Pastikan sudah dikonfigurasi untuk menggunakan AHCI juga.

Jika Anda menjalankan misi yang kritis pada server ini, saya akan beralih ke SLC SSD (seperti X25-E atau STEC SSD). Yang sedang berkata, Anda mungkin akan baik-baik saja dengan X25-M jika tidak.

bergairah
sumber
Ya, saya terhubung melalui ruang drive normal. Saya memiliki instalasi lain dengan Intel SSD yang sama dengan L2ARC (pada perangkat keras Sun dan HP). Yang satu ini telah membuatku kesulitan, meskipun. Penelitian saya tampaknya menunjukkan bahwa L2ARC tidak perlu sekuat ZIL (karenanya penggunaan solusi ZIL berbasis SLC dan PCI dan dorongan konsumen untuk L2ARC). Apakah ini sudah berubah?
ewwhite
Saya akan mencoba mencolokkan SSD langsung ke motherboard dan lihat apakah itu berfungsi. Jika Anda memiliki cadangan X25-M yang berfungsi, Anda bisa mencoba mengganti yang sekarang dan melihat apakah SSD itu sendiri buruk. Pada SLC SSD: Tergantung pada tingkat risiko Anda. Jika Anda menjalankan perangkat lunak pada SLA yang tidak pernah bisa turun dan harus berjalan cepat, mungkin lebih murah untuk membeli SSD kelas atas.
Zippy
Saya mencoba mengatakan bahwa Intel X25-M telah direkomendasikan untuk L2ARC di sebagian besar artikel dan diskusi yang saya lihat online. Jika itu tidak lagi menjadi masalah, apa perangkat yang disukai?
ewwhite
1
@ewwhite: Secara teori, kegagalan perangkat L2ARC seharusnya tidak mengganggu karena ZFS bisa saja jatuh kembali ke pembacaan disk (jelas kinerja akan mendapat pukulan). Dalam prakteknya .. yah, sepertinya Anda menekan ZFS atau bug driver scsi yang dipicu oleh perilaku SSD.
Tom Shaw
1
@ewwhite: Saya mungkin harus memberi Anda beberapa saran yang lebih praktis. Jika Anda ingin membuat sistem crash dump saat sistem Anda wedges, ikuti instruksi di sini . Jenis dump ini mungkin berguna bagi para pengembang Illumos.
Tom Shaw
0

Ed, ada beberapa yang bisa Anda gunakan mulai dari harga yang relatif masuk akal hingga sangat mahal. Saya lebih suka menggunakan SAS SSD dalam semua kasus dan telah melakukannya dengan sangat baik dengan STEC dan Pliant. Keduanya sekarang menawarkan drive MLC yang akan bekerja terkenal memiliki perangkat L2ARC. Belum diuji tetapi segera hadir adalah penawaran SSD dari Seagate yaitu SLC SAS 2.0 dan dikabarkan akan "tidak mahal". Tetap disini....

-PB

PauleyB
sumber