penyetelan ulang tautan keras Emask 0x50 SAct 0x0 SErr 0x4090800 tindakan 0xe beku

8

Situasi berikut:

Server linux debian 7 yang produktif dengan kernel 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

Pabrikan: Supermicro Nama Produk: X10SLL-F Versi:1.02

Pengontrol SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2x SSD, 2x hdd

setiap drive dapat melakukan Sata Rev3 (6.0Gb / s)

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

Pesan-pesan kernel menyarankan (setidaknya untuk saya) masalah dengan semua 4 drive, yang membuat saya percaya bahwa sata controller yang mungkin salah.

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

Apa yang sudah saya ketahui (atau saya yakini telah menemukan jawabannya)

Perintah SECURITY FREEZE LOCKdan DEVICE CONFIGURATION OVERLAYtidak penting untuk masalah ini.

Saat membaca sekitar 20 laporan bug dan banyak dokumentasi, beberapa yang tertaut beberapa menyarankan untuk menonaktifkan NCQ, yang saya lakukan.

Pertama untuk satu perangkat, setelah menunggu 1 hari untuk memeriksa apakah kesalahan itu terjadi lagi dan saya menonaktifkannya untuk semua 4 perangkat

echo "1" >/sys/block/sdc/device/queue_depth

Tidak ada perubahan nyata dalam situasi ini.

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

Yang lain menyarankan kabel sata atau bahkan ketidakcocokan antara papan + drive.

Namun karena saya tampaknya memiliki masalah pada satu drive dan ini mengisi ke semua 4, atau memiliki masalah langsung pada semua 4 perangkat saya tidak dapat menunjukkan masalah lebih lanjut.

Karena ini adalah server produksi yang meletakkan server ini untuk pemeliharaan (alias perubahan param / kernel kernel) adalah mungkin, tetapi saya ingin mencegahnya jika memungkinkan.

Menurut hoster ini mungkin terkait manajemen daya:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

Sebelum perubahan ini diatur ke max_performance.

Ini juga tidak membantu.

Nilai Smart HDD / SDD OK, tidak ada yang terlalu jelas.

Perhatikan bahwa Nilai UDMA tampaknya hanya 33 sekarang.

Saat boot server ini adalah nilai kecepatan tautan sata:

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

Situasi mungkin terjadi pada beban tinggi pada HDD saja, saya belum mengujinya karena itu akan berdampak pada kinerja server jelas.

Tidak ada beban pada SSD, SSD dipasang tetapi tidak digunakan oleh proses mana pun.

RAM adalah ECC sejauh yang saya tahu.

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

Tolong beri tahu saya jika saya dapat memberikan informasi tambahan karena saya tidak tahu apa yang harus dilakukan selanjutnya.

Dennis Nolte
sumber
meminta supermicro vendor langsung, mungkin mereka dapat membantu jika hoster tidak.
Dennis Nolte
1
Perhatikan bahwa sistem melakukan negosiasi ulang pada 1,5 Gbps. Coba paksakan 1,5 Gbps dan lihat apakah itu membuat sistem stabil. Ini titik data. Coba minta askubuntu.com/a/146290/11751 untuk penulisan singkat tentang caranya.
CVn

Jawaban:

4

Apa yang dialami oleh server Anda pada dasarnya adalah negosiasi ulang SATA pada kecepatan tautan yang lebih rendah setelah beberapa masalah berkomunikasi dengan drive.

Faktor-faktor ini dapat bekerja di sini (dipesan berdasarkan probabilitas)

  1. operasi IOPS dengan latensi sangat tinggi (misalnya: disebabkan oleh pengumpulan sampah pengontrol SSD) yang mengakibatkan batas waktu perintah SATA. Apakah drive Anda mendukung perintah SATA Trim? Jika demikian, coba jalankan fstrim /. Apakah itu mengubah sesuatu?
  2. Motherboard / memori buruk: apakah memori Anda dilindungi ECC? Jika tidak, dan jika Anda bisa, jalankan sesi tes memtest86 + diperpanjang (2+ jam)
  3. ketidakcocokan driver perangkat keras / lunak
  4. Pengontrol SATA buruk: sementara sangat tidak mungkin, Anda tidak dapat sepenuhnya mengecualikannya
  5. Kabel / drive SATA buruk: karena keempat drive memberi Anda masalah, ini sangat tidak mungkin
shodanshok
sumber
ssd (s) saat ini tidak digunakan, tampaknya ECC digunakan. dari dmidecode -t17: Total Lebar: 72 bit Lebar data: 64 bit
Dennis Nolte
3

Menurut Dukungan Supermicro, cacat ada pada papan:

Mengutip:

This board may need ECO 16238 update.
Dennis Nolte
sumber