Apakah GPU saya sekarat?

14

Saya sementara menonaktifkan perlindungan memori ECC pada NVIDIA K20m (perangkat 0 di node saya) dan sekarang saya tidak dapat mengembalikannya untuk bekerja lagi. Sebelum itu berfungsi dengan benar dengan ECC diaktifkan. Jadi, inilah yang saya lakukan: Saya menonaktifkan ECC

nvidia-smi -i 0 --ecc-config=0

dan reboot. Ketika itu muncul itu menunjukkan utilisasi GPU 100% dan tidak akan memulai kernel (itu sebenarnya sudah gagal saat membuat konteks). Alasannya adalah kesalahan bit ganda. Saya meresetnya dengan

nvidia-smi -i 0 --reset-ecc-errors=0

dan me-reboot node. Setelah reboot, utilisasi perangkat adalah 0% dan saya bisa memulai pekerjaan seperti biasa. Beberapa jam kemudian perangkat menunjukkan lagi penggunaan GPU 100%. Kali ini tidak melaporkan kesalahan bit ganda (bahkan tidak ada kesalahan bit tunggal). Namun, karena saya tidak bisa menjalankan pekerjaan apa pun, saya me-reboot node dan muncul dengan utilisasi GPU 100%, saya tidak bisa menggunakannya, tetapi melaporkan tidak ada kesalahan bit. Ada apa ini?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None
Ritter
sumber
2
tampak aneh; tidak pernah melihat yang seperti ini. Meskipun mungkin tidak membantu menyelesaikan masalah, coba instal ulang driver Anda, mungkin?
Ben Franchuk
Saya kira Anda sudah mencoba yang jelas untuk hanya memo dan instal ulang semuanya? Maksud saya, uhm, saya tahu sedikit tentang perangkat keras, jadi pendekatan saya selalu memastikan perangkat lunak - apa yang saya pahami - harus bekerja. Dan kemudian saya mungkin akan menyatakan bagian rusak sampai bertentangan dengan pendapat yang lebih luas.
Ariane
Saya telah melihatnya, dan juga menghabiskan waktu meneliti masalah ini dan penyebabnya. Tampaknya solusi terbaik adalah mengganti perangkat keras.
Adovi
1
Apakah Anda sudah mencoba mengatur ulang CMOS?
Sergei

Jawaban:

2

Apakah GPU saya sekarat?

Saya katakan itu sudah mati. Tidak lagi melaporkan kesalahan bit karena Anda mematikan hal yang mendeteksi mereka. (ECC mendeteksi lebih banyak daripada yang dapat dikoreksi.) Namun, mungkin memori pada kartu (atau kartu fisik itu sendiri) yang mengembangkan kesalahan.

Ada dua tersangka lain sebelum saya membuangnya di tempat sampah "daur ulang": pendingin, dan catu daya. Pendinginan cukup mudah untuk diperiksa; kekuatan, tidak banyak.

Ricky Beam
sumber