Bagaimana cara menyelidiki penyebab hang total?

19

Mesin Arch saya terkadang hang, tiba-tiba tidak merespons dengan cara apa pun terhadap mouse atau keyboard. Kursor dibekukan. Ctrl-Alt-Backsp tidak akan menghentikan X11, dan ctrl-alt-del tidak melakukan apa-apa. Plpu, jaringan, dan plot aktivitas disk di conky dan icewm berhenti memperbarui. Dalam beberapa menit kipas menyala. Satu-satunya cara untuk membuat komputer melakukan apa saja adalah mematikan daya.

Saat boot, monitor suhu CPU menunjukkan 70 hingga 80C. Sebelum hang, saya biasanya melakukan aktivitas intensitas rendah seperti menjelajahi web sekitar 50C.

Log menunjukkan tidak ada yang istimewa dibandingkan dengan shutdown normal. Memory checker bekerja dengan baik tanpa cacat.

Bagaimana saya bisa menyelidiki mengapa telepon ditutup? Apakah ada informasi tambahan yang dapat saya temukan sebagai petunjuk? Apakah ada sesuatu yang kurang drastis daripada mati untuk mendapatkan semacam tindakan, jika hanya beberapa shell terbatas atau hanya berbunyi bip, tetapi mungkin memberikan petunjuk?

Mesin ini adalah laptop Gateway P6860 17 "(besar tapi kuat) dan menjalankan Arch 64bit, terbaru (per Maret 2011). Saya memiliki Arch untuk waktu yang lama tanpa masalah ini, beralih ke Ubuntu selama sekitar satu minggu kemudian mundur kembali ke instalasi baru Arch. Saat itulah hiasan dimulai.

UPDATE: Ya, pasti terlalu panas. Pada satu suhu, mouse dan keyboard berhenti bekerja, kadang-kadang menjadi fungsional setelah beberapa menit pendinginan. Pada suhu yang lebih tinggi, hal-hal buruk terjadi, seperti tidak responsif total termasuk mengabaikan SysRq. Kondisi ini segera diikuti oleh pematian mendadak. Saya telah memecahkan masalah dengan membeli 8D komputer baru

DarW
sumber

Jawaban:

7

Jawaban Frederik yang melibatkan sulap SysRq dan dump kernel akan bekerja jika kernel masih berjalan, dan tidak benar-benar digantung. Kernel mungkin hanya sibuk-looping karena suatu alasan.

Fakta bahwa itu tidak menanggapi Ctrl-Alt-Del mengatakan kepada saya bahwa mungkin bukan itu masalahnya, dan bahwa mesin terkunci keras. Itu berarti kegagalan perangkat keras, atau sesuatu yang terkait erat, seperti driver yang buruk.

Tes pemeriksaan memori Anda baik, jika Anda membiarkannya berjalan cukup lama. Anda juga harus mencoba hal lain untuk mencoba dan menekankan sistem, seperti StressLinux . Tolok ukur jangka panjang juga bagus.

Hal lain yang perlu dicoba adalah mem-boot sistem dengan live CD Ubuntu dan mencoba menggunakan sistem seperti biasa. Jika kembali ke Ubuntu sementara seperti itu tidak menyebabkan masalah berulang, ada kemungkinan itu bukan perangkat keras yang rusak, tetapi salah satu hal terkait seperti driver yang buruk atau kernel yang dikonfigurasi secara tidak benar. Sangat mungkin bahwa distribusi yang lebih populer seperti Ubuntu dapat memiliki konfigurasi kernel yang lebih stabil daripada Arch seperti itu, hanya karena semakin banyak mesin yang telah dicoba selama fase pengujian distro.

Warren Young
sumber
Saya percaya bahwa Ctrl-Alt-Delete ditangani oleh init sehingga mungkin tidak berfungsi meskipun kernel masih melakukannya. OTOH AFAIR, kernel tidak menunggu kunci SysRq setelah panik.
jpc
1
Itu mungkin. Untuk membedakan kasus, masukkan file ctrlaltdel hardAnda /etc/rc.local. Ketika sistem terkunci, coba Ctrl-Alt-Del. Jika masih tidak melakukan apa-apa, Anda tahu pasti bahwa kernel tidak lagi berjalan; Anda mengalami kegagalan perangkat keras atau driver.
Warren Young
1
Kernel merespons terhadap kunci Magic SysRq meskipun panik. Pengaturan yang tepat dari layanan kdump harus memastikan bahwa sistem yang benar-benar terjepit masuk ke dalam kernel kdump, sehingga akhirnya harus kembali.
jsbillings
1
Setelah melihat kode penanganan keyboard keyboard dengan cepat, sepertinya saya seperti Ctrl-Alt-Del dan magic SysRq ditangani pada level yang sama: jika satu berfungsi, yang lain akan. Masalah init (1) / SIGINT terpisah, dan ditangani dengan mengatur penanganan Ctrl-Alt-Del untuk melakukan reboot, seperti yang disebutkan dalam komentar saya yang lain.
Warren Young
11

Mengenai pembekuan, ada beberapa opsi:

  • menggunakan port serial jika kotak Anda memiliki satu untuk mendapatkan dump di sana dengan menambahkan console=ttyS0opsi boot, seperti dijelaskan di sini . Anda memerlukan mesin kedua dengan port serial dan kabel modem nol untuk menangkap file dump.

  • menggunakan netconsole untuk mendapatkan dump melalui jaringan, lihat di sini .

  • Menggunakan kexec / kdump dengan cara ini Anda mendapatkan dump lokal, lihat di sini .

Mengenai masalah mematikan daya, saya sarankan Anda menggunakan kunci SysRq ajaib untuk 'S'ync disk,' U`mount mereka, dan kemudian ulang'B'oot kotak (surat-surat adalah yang harus Anda ketik bersama dengan alt -sysrq.

Sunting: Jika Anda memposting oops / trace ke lkml, Anda harus menggunakan versi kernel terbaru (lebih disukai yang terbaru) dan tidak ada modul yang berpemilik.

Frederik Deweerdt
sumber
1
Saya bisa membayangkan banyak suara muda mengatakan, "Apa itu port serial, kakek?" Sebenarnya, saya tidak berpikir mesin ini bahkan memiliki satu.
DarenW
Saya ingat pernah membaca sesuatu tentang SysReq beberapa tahun yang lalu. Kalau saja saya bisa google ketika mesin mati! Kurasa lebih baik aku sibuk menyiapkan mesin kedua ...
DarenW