Saya sementara menonaktifkan perlindungan memori ECC pada NVIDIA K20m (perangkat 0 di node saya) dan sekarang saya tidak dapat mengembalikannya untuk bekerja lagi. Sebelum itu berfungsi dengan benar dengan ECC diaktifkan. Jadi, inilah yang saya lakukan: Saya menonaktifkan ECC
nvidia-smi -i 0 --ecc-config=0
dan reboot. Ketika itu muncul itu menunjukkan utilisasi GPU 100% dan tidak akan memulai kernel (itu sebenarnya sudah gagal saat membuat konteks). Alasannya adalah kesalahan bit ganda. Saya meresetnya dengan
nvidia-smi -i 0 --reset-ecc-errors=0
dan me-reboot node. Setelah reboot, utilisasi perangkat adalah 0% dan saya bisa memulai pekerjaan seperti biasa. Beberapa jam kemudian perangkat menunjukkan lagi penggunaan GPU 100%. Kali ini tidak melaporkan kesalahan bit ganda (bahkan tidak ada kesalahan bit tunggal). Namun, karena saya tidak bisa menjalankan pekerjaan apa pun, saya me-reboot node dan muncul dengan utilisasi GPU 100%, saya tidak bisa menggunakannya, tetapi melaporkan tidak ada kesalahan bit. Ada apa ini?
GPU 0000:02:00.0
Product Name : Tesla K20m
Display Mode : Disabled
Persistence Mode : Enabled
Driver Model
Current : N/A
Pending : N/A
Serial Number : 0324512044699
GPU UUID : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
VBIOS Version : 80.10.11.00.0B
Inforom Version
Image Version : 2081.0208.01.07
OEM Object : 1.1
ECC Object : 3.0
Power Management Object : N/A
GPU Operation Mode
Current : Compute
Pending : Compute
PCI
Bus : 0x02
Device : 0x00
Domain : 0x0000
Device Id : 0x102810DE
Bus Id : 0000:02:00.0
Sub System Id : 0x101510DE
GPU Link Info
PCIe Generation
Max : 2
Current : 2
Link Width
Max : 16x
Current : 16x
Fan Speed : N/A
Performance State : P0
Clocks Throttle Reasons
Idle : Not Active
User Defined Clocks : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
Unknown : Not Active
Memory Usage
Total : 4799 MB
Used : 12 MB
Free : 4787 MB
Compute Mode : Default
Utilization
Gpu : 100 %
Memory : 0 %
Ecc Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Temperature
Gpu : 30 C
Power Readings
Power Management : Supported
Power Draw : 49.51 W
Power Limit : 225.00 W
Default Power Limit : 225.00 W
Min Power Limit : 150.00 W
Max Power Limit : 225.00 W
Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Applications Clocks
Graphics : 705 MHz
Memory : 2600 MHz
Max Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Compute Processes : None
sumber
Jawaban:
Apakah GPU saya sekarat?
Saya katakan itu sudah mati. Tidak lagi melaporkan kesalahan bit karena Anda mematikan hal yang mendeteksi mereka. (ECC mendeteksi lebih banyak daripada yang dapat dikoreksi.) Namun, mungkin memori pada kartu (atau kartu fisik itu sendiri) yang mengembangkan kesalahan.
Ada dua tersangka lain sebelum saya membuangnya di tempat sampah "daur ulang": pendingin, dan catu daya. Pendinginan cukup mudah untuk diperiksa; kekuatan, tidak banyak.
sumber