Linux macet karena apa yang tampak seperti kesalahan perangkat keras terkait, dengan tidak ada dalam log. Bagaimana cara mengatasi masalah?

0

Saya mendapatkan Dell Latitude E6520 dengan kartu video NVIDIA GF119 [Quadro NVS 4200M] dan hard disk SAMSUNG SSD PM810 2.5 "256GB (firmware AXM06D1Q).

Kadang-kadang (dulu sekali setiap beberapa bulan, sekarang lebih seperti sekali atau dua kali seminggu) itu crash di mana laptop masih bertenaga dan layar masih menunjukkan desktop saya beku dalam waktu (mouse tidak bergerak, grafik bergulir di monitor sistem applet tidak bergerak). Saya tidak bisa SSH ke laptop dari jarak jauh. Satu-satunya hal yang dapat saya lakukan adalah menghidupkan adalah menarik daya (tekan dan tahan tombol daya).

Selalu, tidak ada apa pun di log. Semuanya berjalan baik dengan pesan operasional normal dan kemudian tidak ada, sampai pesan boot normal ketika saya membawanya kembali.

Saya sudah mencoba dua distro berbeda, yang datang dengan kernel yang berbeda, jadi jangan berpikir itu terkait perangkat lunak.

Bagaimana saya memulai memecahkan sesuatu seperti ini? Mungkinkah itu hard disk? Atau RAM?


UPDATE 2012-07-14

Atur pekerjaan latar belakang untuk membuang output dmesg ke log setiap 0,1 detik untuk menangkap output dmesg yang mungkin tidak akan dicatat.

Sedang mengerjakan laptop sampai sekitar jam 2 dini hari tadi malam, lalu keluar seharian, kembali menggunakan laptop pada jam 5 sore hari ini untuk menemukannya terkunci. Sayangnya, tidak ada dalam dmesg yang terlihat seperti penyebab yang mungkin:

kern  :info  : [Fri Jul 13 08:53:13 2012] usb 2-1.2: new full-speed USB device number 4 using ehci_hcd
kern  :err   : [Fri Jul 13 08:53:13 2012] usb 2-1.2: device descriptor read/64, error -32
kern  :err   : [Fri Jul 13 08:53:13 2012] hub 2-1:1.0: unable to enumerate USB device on port 2
kern  :info  : [Fri Jul 13 08:53:14 2012] usb 2-1.2: new high-speed USB device number 5 using ehci_hcd
kern  :info  : [Fri Jul 13 08:53:14 2012] Initializing USB Mass Storage driver...
kern  :info  : [Fri Jul 13 08:53:14 2012] scsi6 : usb-storage 2-1.2:1.0
kern  :info  : [Fri Jul 13 08:53:14 2012] usbcore: registered new interface driver usb-storage
kern  :info  : [Fri Jul 13 08:53:14 2012] USB Mass Storage support registered.
kern  :notice: [Fri Jul 13 08:53:15 2012] scsi 6:0:0:0: Direct-Access     Motorola A955             0001 PQ: 0 ANSI: 2
kern  :notice: [Fri Jul 13 08:53:15 2012] scsi 6:0:0:1: CD-ROM            Motorola A955             0001 PQ: 0 ANSI: 2
kern  :notice: [Fri Jul 13 08:53:15 2012] sd 6:0:0:0: Attached scsi generic sg2 type 0
kern  :warn  : [Fri Jul 13 08:53:15 2012] sr1: scsi3-mmc drive: 0x/0x caddy
kern  :debug : [Fri Jul 13 08:53:15 2012] sr 6:0:0:1: Attached scsi CD-ROM sr1
kern  :notice: [Fri Jul 13 08:53:15 2012] sr 6:0:0:1: Attached scsi generic sg3 type 5
kern  :notice: [Fri Jul 13 08:53:15 2012] sd 6:0:0:0: [sdb] Attached SCSI removable disk
kern  :info  : [Fri Jul 13 11:34:42 2012] usb 2-1.2: USB disconnect, device number 5

:-(

user145664
sumber
Adakah yang mencurigakan di dmesg?
thisfeller
@thisfeller Dia tidak bisa memeriksa dmesg pada saat crash. Dan setelah reboot, selalu bersih.
ott--
Saya perlu membaca lebih cermat.
thisfeller
Kemungkinan besar OS mengambil cabang liar. Itu bisa karena RAM yang buruk, atau bisa jadi motherboard atau CPU yang buruk. Dan, tentu saja, itu bisa disebabkan oleh disk yang memasok data buruk atau adaptor disk yang membuatnya rusak saat masuk.
Daniel R Hicks
Baris terakhir yang ada sejak Anda mencabut DROID 2. Laptop terus bekerja dengan baik setelah itu?
Michael Hampton

Jawaban:

0

Saya kira saya akan mencoba yang satu ini. Saya situasi seperti ini, saya SELALU ingin menguji semua komponen (RAM, HD, Power, caps buruk, dll.) sebelum yang lain, hanya karena menghemat begitu banyak waktu dan upaya di kemudian hari. Pada dasarnya, serangkaian langkah ini adalah cara yang baik untuk menutupi pangkalan Anda sehingga Anda tidak membenturkan kepala Anda ke dinding nanti karena Anda melewatkan sesuatu.

Periksa komputer apakah ada indikator kegagalan yang jelas. Kapasitor bocor, kipas rusak, konektor terbakar, komponen super panas, sekarat kartu video, apa pun yang terlihat biasanya merupakan langkah baik pertama.

Selanjutnya, ada berbagai utilitas disk yang dapat di-boot yang dapat Anda gunakan untuk menguji kesehatan berbagai perangkat keras. Salah satu alat sederhana namun efektif yang saya suka gunakan untuk memeriksa kesehatan Hard Drive adalah Drive Fitness Test . Alat kemauan ini pada dasarnya akan melalui drive memeriksa sektor buruk serta melakukan sejumlah pemeriksaan lainnya dalam proses.

Hal sederhana lain untuk diuji adalah RAM yang rusak, dengan sesuatu seperti Memtest86 + .

jmreicha
sumber
0

Anda dapat mengarahkan output syslogd ke syslogd lain di jaringan. Lihat http://linux.die.net/man/5/syslog.conf contoh untuk *.* @finlandia untuk mengirim semuanya ke syslogd jarak jauh.

ott--
sumber