Situasi berikut:
Server linux debian 7 yang produktif dengan kernel
3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux
Pabrikan: Supermicro
Nama Produk: X10SLL-F
Versi:1.02
Pengontrol SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)
2x SSD, 2x hdd
setiap drive dapat melakukan Sata Rev3 (6.0Gb / s)
hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
Model Number: TOSHIBA THNSNH128GBST
Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* SMART Command Transport (SCT) feature set
Model Number: TOSHIBA THNSNH128GBST
Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* SMART Command Transport (SCT) feature set
Model Number: ST2000VX000-1CU164
Transport: Serial, SATA Rev 3.0
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* SMART Command Transport (SCT) feature set
Model Number: ST2000VX000-1CU164
Transport: Serial, SATA Rev 3.0
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* SMART Command Transport (SCT) feature set
Pesan-pesan kernel menyarankan (setidaknya untuk saya) masalah dengan semua 4 drive, yang membuat saya percaya bahwa sata controller yang mungkin salah.
ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete
Apa yang sudah saya ketahui (atau saya yakini telah menemukan jawabannya)
Perintah SECURITY FREEZE LOCK
dan DEVICE CONFIGURATION OVERLAY
tidak penting untuk masalah ini.
Saat membaca sekitar 20 laporan bug dan banyak dokumentasi, beberapa yang tertaut beberapa menyarankan untuk menonaktifkan NCQ, yang saya lakukan.
Pertama untuk satu perangkat, setelah menunggu 1 hari untuk memeriksa apakah kesalahan itu terjadi lagi dan saya menonaktifkannya untuk semua 4 perangkat
echo "1" >/sys/block/sdc/device/queue_depth
Tidak ada perubahan nyata dalam situasi ini.
https://ata.wiki.kernel.org/index.php/Libata_error_messages
https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors
Yang lain menyarankan kabel sata atau bahkan ketidakcocokan antara papan + drive.
Namun karena saya tampaknya memiliki masalah pada satu drive dan ini mengisi ke semua 4, atau memiliki masalah langsung pada semua 4 perangkat saya tidak dapat menunjukkan masalah lebih lanjut.
Karena ini adalah server produksi yang meletakkan server ini untuk pemeliharaan (alias perubahan param / kernel kernel) adalah mungkin, tetapi saya ingin mencegahnya jika memungkinkan.
Menurut hoster ini mungkin terkait manajemen daya:
https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218
echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy
Sebelum perubahan ini diatur ke max_performance
.
Ini juga tidak membantu.
Nilai Smart HDD / SDD OK, tidak ada yang terlalu jelas.
Perhatikan bahwa Nilai UDMA tampaknya hanya 33 sekarang.
Saat boot server ini adalah nilai kecepatan tautan sata:
[ 3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[ 3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[ 3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[ 3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[ 3.161907] ata5: SATA link down (SStatus 0 SControl 300)
Situasi mungkin terjadi pada beban tinggi pada HDD saja, saya belum mengujinya karena itu akan berdampak pada kinerja server jelas.
Tidak ada beban pada SSD, SSD dipasang tetapi tidak digunakan oleh proses mana pun.
RAM adalah ECC sejauh yang saya tahu.
dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.
Handle 0x0023, DMI type 17, 34 bytes
Memory Device
Array Handle: 0x0022
Error Information Handle: Not Provided
Total Width: 72 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: None
Locator: P1-DIMMA1
Bank Locator: P0_Node0_Channel0_Dimm0
Type: DDR3
Type Detail: Synchronous
Speed: 1600 MHz
Manufacturer: Samsung
Serial Number: 373A6427
Asset Tag: 9876543210
Part Number: M391B1G73QH0-CK0
Rank: 2
Configured Clock Speed: 1600 MHz
Tolong beri tahu saya jika saya dapat memberikan informasi tambahan karena saya tidak tahu apa yang harus dilakukan selanjutnya.
sumber
Jawaban:
Apa yang dialami oleh server Anda pada dasarnya adalah negosiasi ulang SATA pada kecepatan tautan yang lebih rendah setelah beberapa masalah berkomunikasi dengan drive.
Faktor-faktor ini dapat bekerja di sini (dipesan berdasarkan probabilitas)
fstrim /
. Apakah itu mengubah sesuatu?sumber
Menurut Dukungan Supermicro, cacat ada pada papan:
Mengutip:
sumber