LInux: Bagaimana cara mendiagnosis / mengisolasi apa yang menyebabkan hang "acak" dan reboot spontan?

20

(awalnya diposting di serverfault )

Jadi, daripada menebak-nebak apa penyebabnya (meskipun uang saya ada pada driver nvidia), di mana saya mulai mencari cara untuk menemukan beberapa fakta?

Saya telah melalui / var / log pada beberapa kesempatan tetapi ada BANYAK hal di sana dan saya tidak bisa (belum) melihat bit-bit penting.


Latar Belakang: Versi Pendek

Saya pindah dari WinXP ke Ubuntu Karmic tepat setelah tersedia.

Sejak itu saya telah memiliki serangkaian tampaknya crash acak yang bermanifestasi sebagai salah satu dari:

  • reboot spontan
  • penguncian lengkap dengan keyboard dan mouse USB saya menjadi tidak responsif (sampai semua LED dimatikan). Juga saya biasanya tidak dapat ssh ke kotak ketika ini terjadi.

Saya telah melakukan banyak pencarian dan Nvidia tampaknya menjadi tersangka utama, tetapi saya tidak tahu harus mulai mencari tahu apa penyebab sebenarnya.

Pengguna serverfault menyarankan untuk memeriksa RAM dengan MemtextX86 +. Tidak ditemukan kesalahan. Pemantauan suhu kartu video juga telah disarankan, yang saya cari sekarang.

Selain dari itu, saran siapa pun?



Latar Belakang: Versi Panjang

Kadang-kadang, saya bisa pergi seminggu penuh tanpa kecelakaan lalu punya 5 dalam 2 hari.

Termotivasi oleh keinginan untuk menghilangkan tersangka yang mungkin, saya telah membuat beberapa perubahan dari waktu ke waktu tanpa hasil:

  • Awalnya saya menggunakan KVM untuk virtualisasi, sekarang saya menggunakan VirtualBox OSE
  • Saya menjalankan NFS di kernel tetapi sekarang menggunakan Samba
  • Saya menggunakan Compiz tetapi sejak itu mematikannya
  • Saya telah beralih dari 64-bit Karmic ke 32-bit (untuk alasan lain juga)
  • Saya sudah mencoba Ubuntu, Kubuntu dan Xubuntu. Masalah yang sama setiap kali (meskipun akhir-akhir ini tampaknya lebih sering di Gnome daripada di XFCE).
  • Saya memutar driver Nvidia dari versi 185 kembali ke versi 96 (NVIDIA Linux x86 Kernel Module 96.43.13 Kamis 25 Juni 18:42:21 PDT 2009). Ini tampaknya telah mengurangi frekuensi kesalahan.


Dalam hal apa yang berjalan pada saat itu, ini dapat bervariasi. Berikut ini adalah umum tetapi tidak selalu berjalan untuk setiap kerusakan:

  • Firefox 3.5
  • VirtualBox OSE dengan 1 atau 2 VM Windows XP
  • Skype
  • Rhythmbox atau Exaile


Perangkat keras saya berusia 2 - 3 tahun:

  • Core 2 Duo 6300
  • RAM 4GB
  • beberapa jenis motherboard Intel dari vintage itu
  • kartu video dual-head Asus dengan chipset Nvdia GeForce 7300 GS
  • 2 x SATA HDD
  • dual monitor (karenanya saya mengandalkan driver nvidia eksklusif)


Saya terus mengikuti pembaruan sistem saya.

Semoga data di atas dapat mendorong seseorang untuk menyarankan jenis log atau konfigurasi tertentu yang layak diselidiki.


Perbarui 1

baru saja mengalami crash di mana speaker menjadi gila. Apakah beberapa googling dan tampaknya PulseAudio memiliki beberapa masalah di masa lalu. Belum yakin apakah ini relevan, tetapi PulseAudio akan berjalan setiap kali saya mengalami kerusakan.


Perbarui 2

Mengikuti tautan @ CarlF ke Debian Sysadmin Guide telah membawa saya ke kunci sysrq ajaib yang akan saya coba pada crash berikutnya. Bukannya ini akan memberi saya banyak petunjuk tentang penyebabnya, tetapi setidaknya saya mudah-mudahan dapat menutup dengan anggun.


Perbarui 3

lm-sensor melaporkan GPU saya berjalan pada suhu hampir 70C / 158F - menarik. Jika saya harus menebak saya akan mengatakan ini adalah petunjuk penting.


Perbarui 4

Tekan bagian dalam sistem dengan airduster tak lama setelah pembaruan terakhir saya - hasil bersih: hanya satu crash sejak itu. Saya akan menyebutnya masalah termal.

LRE
sumber
3
Informasi pemformatan dan latar belakang yang sangat baik, saya berharap semua pertanyaan seperti ini. +1.
John T

Jawaban:

8

Ada saran bagus dari Panduan Administrator Debian di sini: http://www.debian-administration.org/articles/492

CarlF
sumber
Menarik untuk melihat apa yang mereka katakan tentang log non-informatif yang menjadi pertanda masalah perangkat keras nyata. Saya memiliki jarak enam jam antara entri / var / log / pesan terakhir dan reboot. Hmmmm.
LRE
diterima dengan alasan bahwa tautan tersebut memperjelas bahwa tidak ada dalam log yang sama dengan masalah perangkat keras - arahkan saya ke arah yang benar.
LRE
4

Hal pertama yang Anda mungkin ingin memeriksa apakah ada masalah perangkat keras saat boot. Proses bootup akan mencatat data dari buffer ring kernel ke /var/log/boot.log. Setelah sistem di-boot, pesan-pesan baru dimasukkan ke buffer ini dan Anda dapat melihat statusnya saat ini dengan dmesgperintah. Log penting yang juga ingin Anda selidiki adalah /var/log/messages. Ini akan berisi cap waktu, fasilitas, dan prioritas kesalahan dan aplikasi yang menghasilkannya. Memiliki stempel waktu tersedia adalah aset yang sangat berharga ketika men-debug kesalahan.

Penguncian acak pasti terdengar terkait perangkat keras. Coba reseating semua perangkat keras pada motherboard dan jalankan memtest86 + .

John T
sumber
Saya melihat baris di / var / log / pesan yang mengatakan "imklog 4.2.0, sumber log = / var / run / rsyslog / kmsg dimulai". Apakah ini indikator yang baik untuk boot sistem? Jika demikian, saya dapat menggunakannya untuk menentukan area log yang dapat saya pindai kembali.
LRE
Ya, saya percaya itu salah satu yang pertama, jika bukan baris pertama setelah boot. Ini adalah modul input log kernel.
John T
2

Sudahkah Anda mencoba menempatkan kembali memori, prosesor, dan chip lainnya? Juga, Anda mungkin ingin mencoba menjalankan OS lain (FreeDOS) untuk menghilangkan beberapa kemungkinan.

Sebagai tip, Anda juga harus dapat menggunakan dua monitor dengan cukup baik melalui Gnome tanpa menggunakan driver nvidia.

Nerdfest
sumber
terbaik saya sudah bisa mengatakan saya pasti membutuhkan driver pendukung nvidia untuk menggunakan dual monitor. Anda bisa mengarahkan saya ke arah yang benar untuk tidak membutuhkannya?
LRE
Saya mungkin salah. Saya telah melihat sedikit, dan melihat referensi ke xinerama (yang saya pikir driver memiliki ekstensi untuk) tetapi tidak ada yang berkaitan dengan driverws non-eksklusif. Sayangnya, saya tidak memiliki mesin dengan kartu nVidia untuk bermain-main.
Nerdfest