Apakah kesalahan SATA ini berbahaya?

36

Saya mendapatkan kesalahan ini dengan buruk, dan saya tidak tahu apakah ini normal atau tidak.

[39441.061856] ata3.00: failed to read SCR 1 (Emask=0x40)
[39441.061866] ata3.01: failed to read SCR 1 (Emask=0x40)
[39441.061892] ata3.15: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6 frozen
[39441.061897] ata3.15: irq_stat 0x08000000, interface fatal error
[39441.061904] ata3.15: SError: { UnrecovData 10B8B BadCRC }
[39441.061910] ata3.00: exception Emask 0x100 SAct 0x0 SErr 0x0 action 0x6 frozen
[39441.061917] ata3.01: exception Emask 0x100 SAct 0xe SErr 0x0 action 0x6 frozen
[39441.061923] ata3.01: failed command: READ FPDMA QUEUED
[39441.061933] ata3.01: cmd 60/a8:08:b0:48:62/00:00:00:00:00/40 tag 1 ncq 86016 in
[39441.061940] ata3.01: status: { DRDY }
[39441.061944] ata3.01: failed command: READ FPDMA QUEUED
[39441.061953] ata3.01: cmd 60/a8:10:b0:49:62/00:00:00:00:00/40 tag 2 ncq 86016 in
[39441.061959] ata3.01: status: { DRDY }
[39441.061963] ata3.01: failed command: READ FPDMA QUEUED
[39441.061972] ata3.01: cmd 60/58:18:58:4a:62/00:00:00:00:00/40 tag 3 ncq 45056 in
[39441.061978] ata3.01: status: { DRDY }
[39441.061987] ata3.15: hard resetting link
[39441.608302] ata3.15: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[39441.609090] ata3.00: hard resetting link
[39441.929246] ata3.00: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39441.929333] ata3.01: hard resetting link
[39442.249184] ata3.01: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39442.263242] ata3.00: configured for UDMA/133
[39442.277570] ata3.01: configured for UDMA/133
[39442.277725] ata3: EH complete

Saya juga menempelkan smartctl -auntuk sda , sdb dan sdc .

Terima kasih sebelumnya atas bantuan Anda.

Marcos Junior
sumber

Jawaban:

16

Meskipun pada dasarnya saya setuju dengan jawaban Geppettvs D'Constanzo , saya menyarankan bahwa beberapa hal pertama yang mungkin Anda coba adalah

  1. Memeriksa apakah kabel SATA Anda terpasang dengan benar dan terhubung ke soket pada motherboard dan hard drive.

  2. Mengganti kabel SATA Anda. Kabel SATA (relatif) murah dan Anda terkadang mendapatkan kabel yang " buruk ". Sering kali hanya mengganti kabel adalah cara termudah untuk mendiagnosis dan menyelesaikan masalah seperti ini.

(Meskipun agak tak terduga bahwa dua kabel keduanya akan buruk pada saat yang sama. Namun, itu adalah hal yang mudah untuk diperiksa sehingga menurut saya mungkin layak dilakukan.)

Saya baru saja melihat Anda pastin yang berisi data SMART untuk drive Anda. Perhatikan sejumlah besar kesalahan CRC untuk drive sdbdan sdc. Saya sarankan Anda mulai dengan memeriksa kabel dan koneksi untuk drive tersebut.

junior@mediacenter:/$ sudo  smartctl -a /dev/sda
...
Model Family:     SAMSUNG SpinPoint M7E (AFT)
Device Model:     SAMSUNG HM321HI
...
199 UDMA_CRC_Error_Count    0x0036   200   200   000   Old_age  Always -    0

junior@mediacenter:/$ sudo  smartctl -a /dev/sdb
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  -  57

junior@mediacenter:/$ sudo  smartctl -a /dev/sdc
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  - 398

BAIK. Jadi bukan latpop. ;-)
Tentu saja, jika ini terjadi pada laptop daripada tidak ada yang berlaku di atas dan saya tidak yakin saran apa yang ditawarkan. Mungkin menghapus dan menginstal ulang hard drive? Mungkin hanya perlu dipasang kembali di soketnya untuk meningkatkan koneksi?


sbddan sdcterhubung pada kabel e-sata eksternal yang sama (Dock Thermaltake Duo HDD). saya akan mengganti kabel e-sata saya.

Mungkin karena kabel yang rusak atau berkualitas rendah. Bisa juga kabel itu entah bagaimana dipindahkan, terbentur, atau berdesak-desakan saat drive sedang digunakan.

irasional John
sumber
1
sbddan sdckeduanya terhubung pada kabel e-sata eksternal yang sama (Dermaga Thermaltake Duo HDD). saya akan mengganti kabel e-sata saya.
Marcos Junior
9

Sepertinya Anda memiliki kualitas buruk / rusak Kabel Daya / Data SATA. Yang mungkin menyebabkan Bad CRC. Mereka tidak berbahaya sama sekali dan Anda bisa hidup dengan mereka tetapi Anda akan segera kehilangan banyak data.

Laporan SMART dari hard disk drive Anda terlihat waras, jadi saya setuju untuk masalah catu daya berdasarkan pengalaman saya ketika mengatur 5 hard disk drive dalam case / sumber daya yang sama. Saya selesai menggunakan sumber daya eksternal (475W) untuk 2 drive dan 600W kasus untuk semua kasus termasuk GPU, drive optik dan hard disk.

Bagaimanapun, saya sarankan Anda untuk menjalankan backup penuh sebelum Anda melakukan hal lain. Jika memungkinkan, kloning drive hard disk Anda, setelah itu Anda harus memeriksa kabel dan voltase sumber daya Anda.

Geppettvs D'Constanzo
sumber
Karena penasaran, apakah GPU itu GPU yang besar dan berkekuatan lapar?
rasional John
1
nVidia Quadro 4000, memang tidak lapar.
Geppettvs D'Constanzo
1
Menarik. Saya memiliki PSU 400w Antec (Neo-Eco), 5 hard drive, 2 drive optik, dan NVIDIA GeForce 9500 GT dan saya tidak berpikir saya memiliki masalah terkait catu daya. Saya memang memiliki kesalahan drive CRC , tapi saya pikir mereka berasal dari kesalahan pengguna bodoh yang saya buat beberapa waktu lalu. (Membenturkan kabel & semacamnya.) Saya belum melihat ada log peringatan di pesan kernel saya . Tetap saja, kurasa aku harus terus mengawasinya supaya aman.
rasional John
1
1xIDE DVD-RW, 1xSATA DVD-RW dan 1xSATA Blu-Ray ROM Optical Drives sisi ini. 4 SATA dan 1 IDE HDD, GPU adalah konsumsi daya 142 Watt. Saya tidak bisa mengatakan bahwa saya benar-benar yakin itu tentang masalah sumber daya tetapi ketika saya menambahkan Sumber Daya baru masalah hilang. BTW, drive saya tampaknya sehat. Tapi terima kasih telah membuat saya melihatnya. Pendapat Anda sangat dihargai di sisi ini. Terima kasih!
Geppettvs D'Constanzo
1
Eh, 142 watt untuk GPU adalah ... sesuatu. Seluruh sistem saya (biasanya) menggunakan kurang dari itu. Saat saya mengetik ini kotak desktop saya menarik ~ 117 watt. (Menurut Kill-A-Watt saya lupa saya masih memilikinya terhubung; ;-)
irasional John
4

Tampaknya ada masalah antara beberapa versi kernel dan beberapa pengontrol SATA.

Saya baru-baru ini mulai mengalami masalah yang sangat mirip (tidak yakin apakah itu sama saja) pada server web yang menjalankan Scientific Linux.

Informasi paling akurat dan lengkap yang saya temukan tentang masalah tersebut adalah bug launchpad ini .

Singkatnya: Menonaktifkan NCQ tampaknya menjadi solusi terbaik bagi pengguna yang mengalami masalah ini.

jap1968
sumber
3
Menonaktifkan NCQ adalah solusi umum untuk perangkat keras kereta. Tampaknya tidak ada bug kernel.
psusi
Holy $ #! + Berhasil! Semua pesan kesalahan saya hilang dan sistem saya berhenti mogok! Saya sepenuhnya tidak setuju dengan bukan bug kernel, karena saya dapat menggunakan versi kernel yang lebih lama (sepanjang perjalanan kembali ke setidaknya seri 2.6) tanpa crash. Saya tidak percaya saya tidak menemukan ini lebih cepat!
reukiodo
1

Ini hampir selalu merupakan drive yang buruk, saya memiliki ribuan drive yang kami gunakan dan meskipun kesalahan ini tidak pernah menyebabkan drive gagal mereka mengakibatkan korupsi sistem file. Saya pikir itu benar-benar ada hubungannya dengan masalah dengan papan pengontrol pada drive.

Saya telah mencoba segalanya untuk menyelesaikan masalah ini, perbaikannya adalah untuk mengganti drive dan semuanya berfungsi pada kabel dan pengontrol yang sama.

Semoga berhasil

pengguna209235
sumber
Setelah lebih dari 30 tahun menyelesaikan masalah ini untuk mencari nafkah, saya dapat meyakinkan Anda bahwa menurut pengalaman saya ini hampir selalu merupakan kabel yang cerdik. Dan karena murah, Anda coba dulu.
Penatua Geek
0

Saya tahu utas ini sudah lama tetapi saya baru-baru ini mengalami masalah yang sama pada mesin yang baru dibeli dengan slot 6 sata. Saya menginstal cdrom dan hardrive pada 2 sata slot dekat satu sama lain dan kemudian melanjutkan untuk menginstal ubuntu tanpa kesalahan sampai saya reboot maka saya melihat ata8: hard reset link error. Mesin berhenti hingga titik ini tidak pernah pulih. Saya mencoba me-reboot beberapa kali dan tidak berhasil. Dan kemudian saya mencoba untuk mengganti hardrive di salah satu dari 4 slot yang tersedia dan bekerja dengan baik tanpa kerumitan.

ultrajohn
sumber
Maksud Anda, Anda mengubah port SATA tempat hard drive dipasang, kan? Atau maksud Anda mengganti seluruh hard drive dengan yang lain? Saya pikir itu yang pertama, tetapi hanya memeriksa ulang
Xen2050
Itu yang pertama.
ultrajohn
0

Punya masalah yang sama - dalam kasus saya ini adalah karena 4-pin ke adaptor daya SATA tidak terpasang dengan pas.

Andrei Pokrovsky
sumber
0

Saya memiliki masalah yang sama. Saya sudah mencoba semuanya tetapi hanya pada port mikron j pada p5k asus saya, saya tidak memiliki kesalahan.

Tetapi ketika saya meletakkan drive ke catu daya lain itu bekerja dan kesalahan hilang. Lalu saya meletakkan drive kembali ke catu daya aslinya tetapi konektor daya baru dan itu bekerja juga.

Martin Van Der Meulen
sumber
0

Saya tahu utas ini sudah lama, tetapi hanya mengalami masalah yang sama, datang ke sini dari google.

  • memulai ata3.01: failed command: READ FPDMA QUEUEDboot KUBUNTU 16.04 livecd.
  • WINDOWS 7 akan berperilaku tidak menentu, berfungsi ok untuk sementara waktu, tetapi membeku setelah menonton youtube.

Mengubah kabel SATA tidak melakukan apa pun.
Mengganti PSU dan masalahnya hilang.

marco_roboto
sumber
0

Kesalahan ini tidak mungkin merusak hard drive Anda, tetapi sangat mungkin merusak sistem file Anda. Mulailah dengan menentukan drive mana yang melempar kesalahan. Ini biasanya ditentukan dengan mudah dengan sejumlah pendekatan seperti:

1) Mengeluarkan perintah dmesg | grep ata3dan mencari merek dan model hard drive. (karena ata3 adalah port yang melempar kesalahan pada situasi Anda. Sesuaikan sesuai) ini akan menghasilkan output yang mirip dengan ini:

dmesg | grep ata3
[    4.756081] ata3: SATA max UDMA/133 abar m2048@0xf7f26000 port 0xf7f26200 irq 135
[    5.071981] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    5.077850] ata3.00: HPA detected: current 1953523055, native 1953525168
[    5.077959] ata3.00: ATA-8: SAMSUNG HD103SJ, 1AJ10001, max UDMA/133
[    5.077960] ata3.00: 1953523055 sectors, multi 16: LBA48 NCQ (depth 32), AA
[    5.084057] ata3.00: configured for UDMA/133

Pandangan sekilas menunjukkan bahwa drive yang terhubung ke ata3 adalah SAMSUNG HD103SJ

2) Keluarkan perintah di bawah ini:

find -L /sys/bus/pci/devices/*/ata*/host*/target* -maxdepth 3 -name "sd*" 2>/dev/null | egrep block |egrep --colour '(ata[0-9]*)|(sd.*)'

Ini akan memberikan port dan nama perangkat yang disorot pada baris yang sama seperti yang terlihat di bawah ini:

keluaran

Sangat mudah untuk melihat bahwa perangkat yang terhubung ke ata3 telah diberi nama perangkat sdb

3) menginstal lsscsi dengan sudo apt install lsscsidan mengeluarkan perintahlsscsi

$ lsscsi
[0:0:0:0]    cd/dvd  ATAPI    iHAS124   F      CL9M  /dev/sr0 
[1:0:0:0]    disk    ATA      WDC WD2003FZEX-0 1A01  /dev/sda 
[2:0:0:0]    disk    ATA      SAMSUNG HD103SJ  0001  /dev/sdb 
[3:0:0:0]    disk    ATA      ST6000VN0033-2EE SC60  /dev/sdc 

Perhatikan bahwa entri pertama pada setiap baris di atas adalah scsi_host, saluran, target_number dan LUN. Itu ditempatkan dalam tanda kurung dan setiap elemen dipisahkan oleh usus besar. Ketika ada beberapa perangkat SCSI entri mereka diurutkan dalam urutan menaik.

Cukup menambahkan 1 ke angka pertama di setiap baris output memberi Anda port ATA. Anda dapat menemukan detail lebih lanjut di lsscsi sini dan di sini.

Karena dalam kasus Anda, kami melihat kesalahan yang terjadi pada 3,00 dan 3.01 Anda memiliki lebih dari satu drive yang terhubung ke port ATA yang sama. Anda juga ingin memeriksa konektivitas ke ata3.00 dan ata3.01 dengan hati-hati. Ini bisa berupa penutup drive multi-bay yang terhubung ke kabel yang sama. Karena kedua drive mengeluarkan kesalahan, mengganti kabel ke tempat drive multi-drive tersebut akan menghilangkan masalah untuk kedua drive. Perangkat ini biasanya memiliki sumber daya eksternal yang juga bisa menjadi penyebab dan perlu diganti, tetapi kabel (menjadi penghubung terlemah) sejauh ini merupakan akar masalah yang paling mungkin.

Sumber:

Pengalaman

https://linux.die.net/man/8/lsscsi

http://sg.danny.cz/scsi/lsscsi.html

https://serverfault.com/questions/244944/linux-ata-errors-translating-to-a-device-name/868943#868943

Penatua Geek
sumber