Ketika saya menjalankan nvidia-smi
saya mendapatkan pesan berikut:
Failed to initialize NVML: Driver/library version mismatch
Satu jam yang lalu saya menerima pesan yang sama dan menghapus pustaka cuda saya dan saya dapat menjalankannya nvidia-smi
, mendapatkan hasil sebagai berikut:
Setelah ini saya mengunduh cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
dari halaman resmi NVIDIA dan kemudian cukup:
sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}
Sekarang saya telah menginstal cuda, tapi saya mendapatkan kesalahan mismatch yang disebutkan.
Beberapa informasi yang berpotensi bermanfaat:
Menjalankan cat /proc/driver/nvidia/version
saya mendapatkan:
NVRM version: NVIDIA UNIX x86_64 Kernel Module 378.13 Tue Feb 7 20:10:06 PST 2017
GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)
Saya menjalankan Ubuntu 16.04.2 LTS.
Rilis kernel adalah: 4.4.0-66-generik.
Terima kasih!
Jawaban:
Kejutan mengejutkan, mem-boot ulang menyelesaikan masalah (saya pikir saya sudah mencobanya).
Solusi Robert Crovella yang disebutkan dalam komentar mungkin juga bermanfaat bagi orang lain, karena ini sangat mirip dengan apa yang saya lakukan untuk menyelesaikan masalah saat pertama kali saya mengalaminya.
sumber
/var/log/apt/history.log
Ubuntu mengungkapkan bahwa sistem telah secara otomatis memperbarui libcuda, yang mungkin memerlukan restart untuk terus berfungsi dengan benar. Sejak itu saya menonaktifkan pembaruan itu dengan harapan saya tidak akan melihatnya lagi.nvidia-390
). Lihat jawaban saya di bawah inisudo reboot now
dan yang lainnya tidak.Seperti yang dikatakan @etal, me-reboot bisa menyelesaikan masalah ini, tapi saya pikir prosedur tanpa me-reboot akan membantu.
Untuk bahasa Cina, periksa blog saya -> 中文 版
Pesan kesalahan
beri tahu kami modul kernel driver Nvidia (kmod) memiliki versi yang salah, jadi kami harus menurunkan driver ini, dan kemudian memuat versi kmod yang benar
Bagaimana cara melakukannya ?
Pertama, kita harus tahu driver mana yang dimuat.
Anda mungkin mendapatkan
tujuan akhir kami adalah untuk membongkar
nvidia
mod, jadi kita harus membongkar modul tergantungnvidia
lalu, bongkar
nvidia
Penyelesaian masalah
jika Anda mendapatkan error like
rmmod: ERROR: Module nvidia is in use
, yang mengindikasikan bahwa modul kernel sedang digunakan, Anda harus mematikan proses yang menggunakan kmod:dan kemudian bunuh proses itu, kemudian lanjutkan membongkar kmods
Uji
konfirmasi Anda berhasil menurunkan kmods tersebut
Anda seharusnya tidak mendapatkan apa-apa, kemudian mengonfirmasi bahwa Anda dapat memuat driver yang benar
Anda harus mendapatkan hasil yang benar
sumber
Jadi saya mengalami masalah ini, tidak ada solusi lain yang bekerja. Pesan kesalahan itu buram, tetapi memeriksa dmesg adalah kunci:
Namun saya telah sepenuhnya menghapus versi 384, dan menghapus driver kernel yang tersisa
nvidia-384*
. Tetapi bahkan setelah reboot, saya masih mendapatkan ini. Melihat ini berarti bahwa kernel masih dikompilasi ke referensi 384, tetapi hanya menemukan 410. Jadi saya mengkompilasi ulang kernel saya:Dan kemudian berhasil.
Setelah menghapus 384, saya masih memiliki 384 file di: /var/lib/dkms/nvidia-XXX/XXX.YY/4.13.0-43-generic/x86_64/module /lib/modules/4.13.0-43-generic/ kernel / driver
Saya merekomendasikan menggunakan
locate
perintah (tidak diinstal secara default) daripada mencari sistem file setiap waktu.sumber
locate nvidia-smi
. Saya menggunakan perintah mencari tahu bahwa driver lain diinstal.uname -r
Tidak membantu saya.dmesg
keluaran:NVRM: API mismatch: the client has the version 418.67, but NVRM: this kernel module has the version 430.26. Please NVRM: make sure that this kernel module and all NVIDIA driver NVRM: components have the same version.
Saya mendapatkan kesalahan
failed to initialize NVML: Driver/Library version mismatch
dari nvidia-gpu-temperature-indicator saya. Dan nvidia-smi gagal mencetak info apa pun. Saya mencoba mencari apakah ada versi lain dari driver nvidia yang diinstal di ubuntu saya. Tapi saya baru saja menemukan nvidia-driver-390. Pada akhirnya,reboot
membantu saya memecahkan masalah.sumber
2 jawaban teratas tidak dapat menyelesaikan masalah saya. Saya menemukan solusi di forum resmi Nvidia memecahkan masalah saya. Info kesalahan di bawah ini dapat menyebabkan dengan menginstal dua versi driver yang berbeda dengan pendekatan yang berbeda. Misalnya, instal driver Nvidia oleh apt dan instal resmi.
Untuk mengatasi masalah ini, hanya perlu menjalankan salah satu dari dua perintah berikut.
sumber
Ini juga terjadi pada saya di Ubuntu 16.04 menggunakan
nvidia-348
paket (versi nvidia terbaru pada Ubuntu 16.04).Namun saya bisa menyelesaikan masalah dengan menginstal
nvidia-390
melalui PPA Drivers GPU Proprietary .Jadi solusi untuk masalah yang dijelaskan di Ubuntu 16.04 adalah melakukan ini:
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-390
Catatan: Panduan ini mengasumsikan instalasi Ubuntu bersih. Jika Anda sudah menginstal driver sebelumnya, boot reboot mungkin diperlukan untuk memuat ulang semua modul kernel.
sumber
Punya masalah juga. (Saya menjalankan ubuntu 18.04)
Apa yang saya lakukan:
dpkg -l | grep -i nvidia
Kemudian
sudo apt-get remove --purge nvidia-381
(dan setiap versi duplikat, dalam kasus saya, saya memiliki 381, 384 dan 387)Kemudian
sudo ubuntu-drivers devices
untuk mendaftar apa yang tersediaDan saya memilih
sudo apt install nvidia-driver-430
Setelah itu,
nvidia-smi
berikan output yang benar (tidak perlu reboot). Tapi saya kira Anda bisa reboot jika ragu.Saya juga mengikuti instalasi ini untuk menginstal ulang cuda + cudnn.
sumber
Saya mengalami masalah ini setelah pembaruan kernel normal pada mesin CentOS. Karena semua driver dan perpustakaan CUDA dan nVidia telah diinstal melalui repositori YUM, saya berhasil menyelesaikan masalah menggunakan langkah-langkah berikut:
Itu memastikan kernel dan driver nVidia saya konsisten. Saya rasa hanya me-reboot bisa mengakibatkan versi modul kernel salah dimuat.
sumber
Saya harus me-restart kernel dan menghapus semua paket yang telah saya instal sebelumnya (selama instalasi pertama), pastikan untuk menghapus semua paket, bahkan setelah menghapus paket dengan perintah di bawah ini
paket-paket seperti "libtinfo6: i386" tidak bisa dihapus
Saya menggunakan Ubuntu 20.04 dan Nvidia-driver-440 untuk itu Anda harus menghapus semua paket yang ditunjukkan di bawah gambar
Daftar semua paket yang perlu dihapus:
seperti yang ditunjukkan pada gambar, pastikan bahwa paket yang Anda instal memiliki ukuran yang benar yaitu 207 Mb untuk Nvidia-driver-440, jika kurang berarti Anda belum menghapus semua paket.
sumber
Saya telah menginstal ulang driver nvidia: jalankan perintah ini dalam
root
mode:systemctl isolate multi-user.target
modprobe -r nvidia-drm
Instal ulang driver Nvidia:
chmod +x NVIDIA-Linux-x86_64–410.57.run
systemctl start graphical.target
dan akhirnya periksa
nvidia-smi
Terima kasih kepada: Cara Memasang Driver Nvidia dan CUDA-10.0 untuk GPU RTX 2080 Ti di Ubuntu-16.04 / 18.04
Bagaimana cara membongkar modul kernel 'nvidia-drm'?
sumber
Untuk kelengkapan, saya mengalami masalah ini juga. Dalam kasus saya ternyata karena saya telah menetapkan Dentang sebagai kompiler default saya (menggunakan
update-alternatives
),nvidia-driver-440
gagal mengkompilasi (memeriksa/var/crash/
) meskipunapt
tidak memposting peringatan. Bagi saya, solusinya adalahapt purge nvidia-*
,cc
kembali menggunakangcc
, reboot, dan instal ulangnvidia-driver-440
.sumber
Saya menempatkan wadah itu menjadi gambar buruh pelabuhan. Lalu saya membuat ulang wadah lain menggunakan gambar buruh pelabuhan ini dan masalahnya hilang.
sumber
Jawaban ini tidak berhasil untuk saya:
https://stackoverflow.com/a/43023000/1179925
https://stackoverflow.com/a/45319156/1179925
https://stackoverflow.com/a/54349675/1179925
dmesg
Copot driver lama
418.67
dan instal driver baru430.26
(unduhNVIDIA-Linux-x86_64-430.26.run
):cat /proc/driver/nvidia/version
sumber
reboot Jika masalah masih ada:
untuk sen / rhel
kemudian
sumber
Untuk kasus saya, saya telah menginstal driver nvidia dan kemudian cuda. Saya menemukan itu dapat diperbaiki dengan hanya menginstal cuda. https://developer.nvidia.com/cuda-toolkit
sumber