Harddisk jatuh offline karena alasan yang tidak diketahui

11

Saya memiliki 7 sistem yang menjalankan pengaturan di bawah ini. Kadang-kadang disk yang berbeda jatuh offline, tetapi pada pemeriksaan lebih dekat disk baik dan tidak rusak dan bekerja dengan sempurna selama setidaknya satu tahun lagi. Karena ini terjadi pada semua 7 sistem saya merasa tidak mungkin bahwa ada satu bagian yang bertindak atas (misalnya kabel), tetapi itu bukan kombinasi dari beberapa bagian yang sedikit tidak kompatibel.

Masalahnya adalah untuk menemukan titik tepat di mana ketidakcocokan tersebut.

(Jika Anda memiliki penyelesaian di mana Anda dapat melakukan virtual re-seat harddisk dari baris perintah, maka Anda mungkin dapat menjawab /server/523315/re-activate-device -yaitu-dianggap-mati ).

Perangkat keras server: Dell 1950, Dell R815, Dell R715.

Sistem operasi:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Pengendali:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

SAS / SATA-expander Supermicro 4U SAS / SATA Expander Backplane dengan LSI SAS2X36 Expander Chip tunggal:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Disk:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Disk dalam satu sistem:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)
Ole Tange
sumber
9
+1 untuk mulai mengajukan pertanyaan-pertanyaan penting :)
Sven
Kabel yang buruk, yang tidak memiliki pelindung dapat menyebabkan masalah dengan checksum. [sehingga menyebabkan masalah membaca dan menulis]. Sudahkah Anda mencoba mengganti kabel?
monksy
Kabel telah diganti dengan barang yang dikenal. Saya juga mengharapkan Linux untuk mencoba kembali perintah setelah mengatur ulang bus scsi.
Ole Tange
2
Dari apa yang berhasil saya gali sejauh ini, pesan-pesan mengindikasikan bahwa ada masalah konektivitas - bukan peringatan SMART .. mungkin orang lain dengan pengalaman BiY yang luas dapat membantu. Yang saya tahu adalah bahwa mereka tinggal jauh dari disk S-ATA dalam pengaturan besar karena kurangnya perintah / antrian dibandingkan dengan SAS. Saya akan meminta beberapa untuk melihat ini.
pauska
@ pauska Bisakah Anda menguraikan (dengan tautan?) dengan apa yang Anda gali?
Ole Tange

Jawaban:

1

Kami kehilangan informasi di sini. Anda menyarankan Anda memiliki 24-45 disk per server dalam pengaturan penyimpanan ini.

  • Pengontrol spesifik apa yang Anda gunakan?
  • Karena jumlah disk, Anda mungkin memiliki beberapa drive di kandang eksternal. Harap berikan model / model penutup drive eksternal yang digunakan.
  • Model drive spesifik apa yang Anda gunakan? Apakah semua drive tingkat desktop disk?
  • Sistem file apa yang Anda gunakan?
  • Jelaskan tata letak disk dan RAID.
  • Apakah ini selalu menjadi masalah atau berkembang seiring waktu?
  • Apakah Supermicro terlibat di mana saja dalam pengaturan ini?

Tergantung pada pengaturan enklosur, Anda mungkin mengalami timeout SATA atau kesalahan bus. Ini dapat memiliki efek buruk pada semua drive yang terpasang pada controller.

Masalah lainnya adalah negosiasi tautan SAS / SATA yang buruk. Saya tentu saja mengalami ini pada beberapa ekspander SAS ketika drive 1.5Gbps dan 6.0Gbps dicampur pada papan yang sama.

Harap berikan informasi lebih lanjut.

putih
sumber
Saya sangat tertarik dengan pertanyaan Anda tentang Supermicro. Bisakah Anda menguraikan?
Halfgaar
@Halfgaar Bisakah Anda memberikan umpan balik pada pertanyaan lain yang saya tanyakan?
ewwhite
Posting asli bukan milikku. Saya hanya ingin tahu tentang pernyataan itu.
Halfgaar
1
@Halfgaar Ooops ... Yah, saya telah menemukan bahwa Supermicro SAS diperluas / backplanes dan beberapa lampiran JBOD tidak berperilaku terprediksi dalam banyak keadaan. Catatan dalam jawaban saya tentang penurunan kecepatan SAS / SATA dan negosiasi tautan adalah sesuatu yang hanya saya alami pada revisi tertentu peralatan Supermicro. Saya juga tidak bisa menggunakan JBODs mereka untuk ZFS lagi karena perilaku miring.
ewwhite