Ringkasan
Saya telah mendapatkan pesan rahasia ini di syslog sejak saya menginstal beberapa perangkat keras baru dan saya tidak tahu apa masalahnya, apakah itu serius, atau apa yang harus dilakukan.
Mereka berasal dari SATA HBA baru dan mereka mengikuti pola. Saya akan mendapatkan beberapa pesan pertama diikuti oleh beberapa pesan kedua 5-30 detik kemudian. Mereka datang dalam gumpalan yang semuanya dicatat dalam detik yang sama dan jumlah yang tepat dari masing-masing bervariasi antara sekitar 2 dan 35. Ini bisa menjadi menit atau jam antara penampilan entri.
Contoh dari dua pesan:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Selalu selalu 0x31120303 diikuti oleh 0x31110d01.
mpt2sas adalah driver untuk adaptor bus host SATA yang saya gunakan tetapi konten kesalahannya terlalu samar. Itu tidak memberi tahu saya apa masalahnya, apa disk atau port itu dengan atau seberapa parah itu.
Perangkat keras
Supermicro X9SCL dengan Xeon E3-1220 dan 8GB RAM.
Supercicro AOC-USAS2-L8I SAS / SATA HBA berbasis LSI SAS2008 yang terhubung ke set baki disk Supermicro CSE-M35T-1B . Ini memiliki tiga Western Digital WD30EZRX dan dua Segate ST3000DM001 dicolokkan ke dalamnya. Semua drive 3TB (jumlah sektor yang persis sama persis). Tidak ada ekspander port yang digunakan.
HBA, baki disk, dan 4 drive baru. Salah satu WD30EZRXes telah berbulan-bulan, tidak punya masalah dengan itu. Seandainya terhubung ke pengontrol Intel SATA terintegrasi sebelumnya, pindahkan ke drive bay dengan pengaturan baru ini.
Memiliki masalah dengan HBA yang perlu sering diatur ulang dan mendapatkan kinerja yang sangat buruk. Memperbarui firmware / bios menjadi "Fase 12", rilis terbaru yang tersedia dari Supermicro dan mengubah jenisnya menjadi IT (yaitu passthrough, dari IR untuk serangan terpadu karena saya akan menggunakan semua serangan perangkat lunak): 2008IT12.FW. Pembaruan itu membereskan semua masalah awal dan saya tidak mulai mendapatkan pesan-pesan di atas sampai nanti (lihat di bawah).
Empat disk pertama yang saya tambahkan semuanya pada port SFF-8087 pertama (dibagi menjadi 4 kabel SATA). Disk terbaru yang saya tambahkan ada di port lain, jika itu penting.
Satu-satunya disk lain di sistem yang berisi OS, dan merupakan Intel 80GB SSD yang lebih lama dicolokkan ke pengontrol SATA terintegrasi.
Perangkat lunak
Ubuntu 11.10 (oneiric). Linux 3.0.0-14-server x86_64. Menggunakan driver mpt2sas yang datang dengan OS.
Mencoba membangun array RAID6 menggunakan Linux md dengan lima disk tersebut. Dimulai dengan susunan 3 disk yang berdegenerasi, dua Segate, dan salah satu drive WD baru. Ini cepat dan berjalan sangat baik, tidak ada pesan di log setelah saya melakukan pembaruan firmware. Sementara itu, saya masih menggunakan disk WD lama pada port 0 dari controller yang sama.
Menambahkan disk WD baru lainnya ke array. Rebuild dimulai dan saya sekarang mendapatkan pesan-pesan itu di syslog secara berkala. Saya tidak yakin berapa lama waktu yang diperlukan untuk menambahkan disk ke array tetapi perkiraan waktu (cat / proc / mdstat) berkisar dari ribuan hingga puluhan ribu menit, lebih lama dari yang dibutuhkan 3 disk pertama. Saya mengerti bahwa disk WD jauh lebih lambat; Saya punya model yang berbeda untuk mengurangi kemungkinan kegagalan banyak disk, dan itu adalah dua model 3TB termurah.
Catatan
SMART tidak melaporkan masalah pada disk apa pun. Tidak ada kesalahan yang dicatat pada disk apa pun dan tidak ada statistik kegagalan yang mendekati ambang batas.
Pesan-pesan yang dicatat hanya mulai muncul setelah saya menambahkan disk terakhir, yang menunjukkan bahwa seseorang mungkin memiliki masalah tetapi saya tidak ada yang menunjuk ke sana.
Saya memang menemukan file header yang tampaknya sesuai dengan pesan logging dari driver ini. Pesan pertama tampaknya dibatalkan (kode 12) untuk "subkode" 0303 yang tidak terdaftar. Pesan kedua adalah reset (kode 11) karena alasan yang juga tidak jelas. Jika saya bisa menentukan apa artinya 0303 dan 0d01, itu akan sangat membantu.
Saya tahu bahwa 4 disk dalam disk 5 RAID6 adalah array yang tidak lengkap. Saya berencana untuk menyalin isi disk lama ke array setelah selesai mengintegrasikan disk ke-4 dan kemudian menambahkan disk lama ke array juga.
Wow, yang sulit.
Tampaknya ini menunjukkan bahwa 0x31120303 adalah reset bus karena salah satu perangkat Anda sedang dalam beban berat. Itu juga mengatakan Anda tidak perlu khawatir tentang hal itu. (Haha, ya benar.)
Ini menunjukkan bahwa pesan-pesan log ini terjadi karena salah satu perangkat Anda terlalu lama untuk merespons perintah. Ini mengatakan hal yang sama, dan juga menunjukkan hal itu terjadi di bawah beban berat.
Meskipun ini bukan jawaban yang lengkap, mudah-mudahan ini akan mengarahkan Anda ke arah yang bermanfaat.
sumber
Ini berarti bahwa Anda memiliki beberapa kesalahan pada disk, itu adalah disk SATA di pengontrol SAS dari LSI dan karena kesalahan semua permintaan yang belum selesai dibatalkan.
Dalam kebanyakan kasus, Anda memiliki kesalahan sedang pada disk yang merupakan pemicu untuk kesalahan ini. Kesalahan ini dengan sendirinya tidak berarti kesalahan sedang dan Anda harus memeriksa log untuk petunjuk lain untuk menemukan apa sumber kegagalan disk asli.
Versi yang sedikit lebih rumit di: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/
sumber