Apa yang menyebabkan ini? pcieport 0000: 00: 03.0: Kesalahan Bus PCIe: AER / Bad TLP

20

Saya melihat pesan kesalahan seperti di bawah ini:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Ini akan menyebabkan kinerja yang menurun walaupun mereka (sejauh ini) telah diperbaiki. Jelas, masalah ini perlu diselesaikan. Namun, saya tidak dapat menemukan banyak hal di internet. (Mungkin saya mencari di tempat yang salah.) Saya hanya menemukan beberapa tautan yang akan saya posting di bawah ini.

Adakah yang tahu lebih banyak tentang kesalahan ini?

Apakah motherboard, Samsung 950 Pro, atau GPU (atau kombinasi dari semuanya)?

Perangkat kerasnya adalah: Asus X99 Deluxe II Samsung 950 Pro NVMe di M2. slot pada mb (yang berbagi port PCIe 3). Tidak ada lagi yang dicolokkan ke port PCIe 3. GeForce GTX 1070 dalam slot PCIe 1 Core i7 6850K CPU

Beberapa tautan yang saya temukan menyebutkan perangkat keras yang sama (X99 Deluxe II mb & Samsung950 Pro). Saya menjalankan Arch Linux.

Saya tidak menemukan string "8086: 6f08" di journalctl atau di mana pun saya berpikir untuk mencari sejauh ini.

pesan kesalahan aneh dengan nvme ssd (TLP Buruk): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: Apakah kartu Anda berjuang dengan diam-diam dengan transmisi ulang TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 Melempar Kesalahan Buruk TLP PCIe Bus - Forum GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

driver - Kesalahan PCIe dalam log dmesg - Tanyakan Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99 hard lock - Kesalahan PCIE - Forum Pengembang NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

MountainX untuk Monica Cellio
sumber
saya memindahkan gtx 710 dari slot pc16 x16 ke slot x1 (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
trant

Jawaban:

23

Saya dapat memberikan setidaknya beberapa detail, meskipun saya tidak dapat sepenuhnya menjelaskan apa yang terjadi.

Seperti dijelaskan untuk contoh di sini , CPU berkomunikasi dengan pengendali bus PCIe dengan paket lapisan transaksi (TLP). Perangkat keras mendeteksi ketika ada yang salah, dan kernel Linux melaporkannya sebagai pesan.

Opsi kernel pci=nommconfmenonaktifkan Memory-Mapped PCI Configuration Space, yang tersedia di Linux sejak kernel 2.6. Sangat kasar, semua perangkat PCI memiliki area yang menggambarkan perangkat ini (yang Anda lihat dengan lspci -vv), dan metode awalnya untuk mengakses area ini melibatkan melalui port I / O, sementara PCIe memungkinkan ruang ini dipetakan ke memori untuk akses yang lebih sederhana.

Itu berarti dalam kasus ini, sesuatu yang tidak beres ketika PCIe controller menggunakan metode ini untuk mengakses ruang konfigurasi dari perangkat tertentu. Mungkin bug perangkat keras di perangkat, di pengontrol root PCIe pada motherboard, dalam interaksi spesifik keduanya, atau sesuatu yang lain.

Dengan menggunakan pci=nommconf, ruang konfigurasi semua perangkat akan diakses dengan cara yang asli, dan mengubah metode akses dapat mengatasi masalah ini. Jadi jika Anda mau, itu sekaligus menyelesaikan dan menekannya.

dirkt
sumber
Bisakah saya tahu kalau ini masalah motherboard saya? Atau masalah CPU saya. Haruskah saya mengubahnya?
user10024395
@ user2675516: Ini tidak terkait CPU. Ini masalah pengendali root PCIe (yang sering ada di Southbridge) dan / atau pengendali PCIe perangkat, atau interaksinya. Ya, mengganti motherboard untuk yang memiliki perangkat keras berbeda biasanya menghilangkannya.
dirkt
Saya berubah dari asus e-ws ke asus deluxe, tetapi masalah masih berlanjut. Itu sebabnya saya curiga itu cpu. Atau karena keduanya adalah chipset X99?
user10024395
1
@ user2675516: Jika chipsetnya sama, esp. pengontrol PCIe, lalu mengganti motherboard tentu tidak akan membantu. Itu sebabnya saya menulis "motherboard dengan perangkat keras yang berbeda ".
dirkt
faktor umum bagi saya tampaknya adalah motherboard dengan chipset
X99
3

Menambahkan opsi baris perintah kernel pci=nommconfmenyelesaikan masalah bagi saya. Oleh karena itu, saya menganggap masalahnya terkait dengan motherboard. Ini terjadi pada semua komputer yang dilengkapi motherboard X99 saya. Itu tidak terjadi pada sistem Z170 atau perangkat keras lain yang saya miliki.

MountainX untuk Monica Cellio
sumber
1
Hai, saya juga menghadapi masalah ini. Bisakah saya tahu apa yang pci-nommconf lakukan? Apakah itu hanya menekan masalah atau menyelesaikan masalah?
user10024395
Tidak dapat mengkonfirmasi - mendapatkan kesalahan pada z170i, menjalankan lengkungan 4.13.12
sitilge
@sitilge - terima kasih atas komentar Anda. Merek / model z170i yang mana? Motherboard saya adalah Asus. Salah satunya adalah X99 Deluxe II
MountainX untuk Monica Cellio
Ini adalah asus z170i game pro.
sitilge
3

Coba langkah-langkah ini:

  1. cp /etc/default/grub ~/Desktop
  2. Edit grub. Tambahkan pci=noaerdi akhir GRUB_CMDLINE_LINUX_DEFAULT. Baris akan seperti ini:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Nyalakan ulang
Ehtesham
sumber
Saya menerapkan solusi Anda tetapi bukannya pci=noaersaya gunakan pci=nommconfseperti yang disarankan oleh @dirkt
user3405291
Terima kasih, pci = noaer memperbaiki masalah slackware saya 14.2x64 yang diinstal pada laptop hp (instalasi desktop tidak menunjukkan masalah ini sama sekali)
John Forkosh
7
Maukah Anda sedikit menguraikan? Apa yang dilakukan opsi ini dan bagaimana Anda mengharapkannya untuk menyelesaikan masalah?
Calimo
Mengapa Anda tidak menggunakannya sudoedituntuk pengeditan yang aman? -1 untuk salinan ini di sini dan di sana langkah-langkahnya adalah omong kosong lengkap
LinuxSecurityFreak
4
pci=noaerhanya menonaktifkan Pelaporan Kesalahan Lanjut. Jadi Anda masih memiliki kesalahan itu, Anda hanya tidak melihatnya ...
dirkt
2

Saya mendapatkan kesalahan yang sama (TLP buruk terkait dengan perangkat 8086: 6f08). Saya memiliki X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Masalah-masalah ini tampaknya terkait dengan chipset X99 dan perangkat M.2, seperti Samsung Pro.

Motherboard X99 Deluxe II berbagi bandwidth antara slot PCIE16_3 dan M.2 / U.2. Mengikuti komentar dari @Nic, di BIOS saya mengubah Konfigurasi Perangkat Onboard | U.2_2 Bandwidth dari Otomatis ke U.2_2. Ini memperbaiki masalah bagi saya.

pengguna1759557
sumber
Bagaimana Anda menentukan bahwa itu hanya chipset itu? Sudah mencoba setiap chipset lainnya? Ini terjadi pada berbagai macam perangkat keras.
doug65536
2

Saya mengubah slot PCIE16_3 Konfigurasi dalam Bios di x99-E saya menjadi statis diatur ke mode x8, bukan otomatis yang standar untuk dukungan perangkat M.2. Sekarang berfungsi dengan baik tanpa kesalahan TLP pada kedua kartu 1070GTX saya yang terhubung melalui papan ekstensi PCIe 1x hingga 16x.

Saya tidak menggunakan port 16_3 terlebih dahulu, pindah ke slot itu untuk menguji tetapi masih memiliki masalah sebelum perubahan bios. Juga mengubah pengaturan bsleep untuk semua kartu menjadi 30 di konfigurasi penambang.

Sebelum perubahan saya memiliki log kernel spammed dengan kesalahan. Juga mencoba untuk menyalakan sistem sebelum dan sesudah perubahan. Tampaknya cukup gigih.

Nic
sumber
2

Cari manual motherboard Anda untuk "AER". Anda dapat membunuh sumber masalah dengan mengoreksi ketidaksesuaian spesifik atau menonaktifkan AER sama sekali. Hanya gunakan ini jika semua kesalahan terkait dengan kesalahan yang diperbaiki , jika tidak, Anda bisa menutupi masalah yang sebenarnya.

N3V3N
sumber