Root menyebabkan inspeksi shutdown komputer di bawah beban GPU

0

Saya mencoba menggunakan Nvidia gpu saya untuk tujuan ilmiah. Namun setelah beberapa saat saya memulai proses untuk GPU ini, komputer saya mati. Itu tidak dapat dibuka dari tombol case kecuali tombol power PSU off dan tetap pada kondisi ini setidaknya selama 30 detik kemudian menjadi on. Saya mencoba mencari alasan dari situasi ini.

Gambaran umum sistem saya adalah:

  • Linux (fedora)
  • Motherboard: Gigabyte GA-970A-UD3
  • Nvidia Gtx 1070 (untuk tugas GPU)
  • Radeon HD 7850 (untuk tujuan standar)
  • 700W PSU

Berikut adalah daftar hal-hal yang telah saya coba sejauh ini:

  • Saya melakukan tes beban CPU dan tidak dimatikan
  • Saya menghapus GPU AMD, masih dimatikan
  • Itu tidak mati jika saya memberikan perhitungan ringan untuk Nvidia GPU untuk waktu yang singkat
  • Jika saya memberikan perhitungan yang berat, shutdownnya sangat lama setelah start
  • Saya memeriksa Nvidia gpu temp dan bahkan mengapung maks. sekitar 55 C, dimatikan
  • Saya secara manual mengatur kecepatan kipas GPU Nvidia ke% 80. Tampaknya membantu karena tugas yang diberikan berjalan sedikit lebih lama dari biasanya tetapi tidak mencegah shutdown
  • Saya menghapus HDD atau kipas ekstra untuk membuat PSU tidak terlalu lelah, itu tidak membantu sama sekali
  • Saya menambahkan PSU tambahan menggunakan add2psu Namun masih shutdown
  • Bahkan suhu CPU sekitar 45, akan mati jika Nvidia GPU mulai melakukan perhitungan
  • Saya mengubah perangkat lunak perhitungan saya sepenuhnya namun mematikan
  • Saya memperbarui driver Nvidia dan ini tidak membantu
  • Saya mencoba perhitungan acak untuk mengisolasi proses membaca hard disk tetapi masih shutdowns
  • Saya menginstal ulang OS tetapi masalahnya tetap ada
  • Saya memeriksa motherboard tetapi tidak ada bekas terbakar

Apa saran Anda? Apa yang mungkin menjadi akar penyebabnya?

Terima kasih.

Sefa
sumber
Siapa yang menulis driver nvidia Anda? Saya melihat sejumlah tutorial khusus Fedora yang membahas pemasangan driver eksklusif nvidia dan penghapusan driver Nouveau.
Ed Salter
Seberapa dekat 2 GPU mereka dapat mentransfer panas kembali, dan sebagainya? Dapatkan kipas kotak untuk jendela Anda, buka sisi kasing dan tiupkan dan lihat apakah ada efeknya.
cybernard
@ Id Salter Saya menginstal driver nvidia resmi bersama dengan cuda toolkit. Tidak ada repo pihak ketiga yang terlibat.
Sefa
@cybernard Saya telah menghapus AMD GPU dan telah mencoba tetapi tidak berhasil. Tapi saya akan memberi kesempatan untuk mengudara.
Sefa

Jawaban:

0

Apa temps CPU Anda? Penggunaan yang tidak tepat dari senyawa termal ex: pendingin CPU yang tidak cukup atau tidak selaras dapat menyebabkan masalah yang sama karena terlalu panas dan satu hal terakhir yang perlu diperiksa adalah catu daya Anda, saya baru-baru ini memiliki yang gagal karena beban yang kurang (permainan) dan akan reboot sistem saya tetapi ketika saya tidak bermain game akan berjalan selama berjam-jam. Paling murah dan termudah untuk memeriksa dulu adalah PSU jika masih tidak ada bantuan maka lihatlah untuk mengulangi senyawa termal pada CPU dan pastikan pendingin CPU Anda terpasang dengan benar.

MEZ
sumber
Saya sudah menyebutkan di posting saya bahwa: 1- "Saya melakukan tes beban CPU dan tidak mematikan" 2- "Saya menambahkan PSU tambahan menggunakan add2psu namun tetap shutdowns" 3- "Saya secara manual mengatur kecepatan kipas GPU Nvidia ke% 80 ... tapi itu tidak mencegah shutdown "
Sefa
-1

Saya telah memeriksa frekuensi jam selama pelaksanaan tugas di Nvidia GPU dan menemukannya benar-benar melebihi spesifikasi maksimum . Jadi di beberapa negara bagian yang lebih rendah seperti P8 tidak mematikan tetapi frekuensi overclock ini mencegahnya untuk bekerja di negara yang lebih tinggi.

Saya tidak dapat membatasi frekuensi clock GPU Nvidia. Namun saya berhasil membuatnya bekerja dengan membatasi konsumsi daya tetapi dengan biaya% 20 kecepatan eksekusi relatif lebih lambat.

Perintah:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT
Sefa
sumber
GPU Anda terlalu panas saat itu. Layak untuk disebutkan dalam jawaban Anda. Mengurangi daya yang disediakan untuk kartu juga akan menurunkan suhu. Mungkin atau masih mungkin untuk menyelesaikan masalah ini tanpa kinerja yang dihantam dengan meningkatkan pendinginan secara memadai.
Cliff Armstrong
Kemungkinan besar tidak, ini bukan tentang pemanasan GPU. Dalam posting asli saya, saya menulis bahwa "Saya secara manual mengatur kecepatan kipas GPU Nvidia ke% 80. Tampaknya membantu karena tugas yang diberikan berjalan sedikit lebih lama dari biasanya tetapi tidak mencegah shutdown". Jika saya memeriksa temp, tidak melebihi 61C, yang menurut saya bisa diabaikan.
Sefa
Ya, Anda menulis itu ... dan itu tidak berarti apa-apa. Menjalankan kipas dengan kecepatan penuh bukan jaminan tidak kepanasan. Di sisi lain, saya memiliki pengalaman dua dekade sebagai teknisi komputer yang memberi tahu saya bahwa kasus Anda adalah masalah buku teks yang terlalu panas. Sama sekali tidak ada salahnya pada GPU berjalan pada laju jam yang lebih tinggi ... kecuali jika menyebabkan GPU terlalu panas. Bahwa masalahnya hilang ketika Anda menurunkan kecepatan clock GPU tetapi membuktikan bahwa itu adalah masalah overheating.
Cliff Armstrong
Jadi Anda bersikeras terlalu panas. Saya mengharapkan Anda untuk menjelaskan pertanyaan-pertanyaan ini: Mengapa sensor temp nvidia gpu saya tampil dengan interval 0.2ms maks 61 C dan segera dimatikan setelah jam yang lebih tinggi? Bahkan dengan kotak es suhu sangat rendah yang berdekatan dengan GPU tidak mencegah shutdown? Pertanyaan kedua adalah, mengapa membatasi daya tidak mencegah kenaikan suhu yang mencapai 66 C selama eksekusi tetapi mencegah shutdown?
Sefa
Karena sensor itu tidak ada di dalam GPU. Dibutuhkan waktu untuk panas dari inti GPU untuk secara fisik mencapai sensor ... tidak peduli seberapa sering Anda mengambil pembacaan dari sensor itu tidak dapat mengatasi ini. Jika panas meningkat cukup cepat, mungkin ada jarak yang sangat besar antara apa yang ditunjukkan oleh sensor dan suhu aktual. Ini juga akan menjelaskan mengapa Anda melihat suhu yang lebih tinggi dengan daya yang berkurang ... karena dalam hal ini, sensor memiliki waktu untuk mengambil pembacaan yang akurat. Dan itu bahkan tidak memperhitungkan gram temp.
Cliff Armstrong