Nvidia K20X vs GeForce Titan untuk akselerasi GPGPU

10

Saya mencoba memahami perbedaan antara kedua kartu grafis ini untuk komputasi akademik, khususnya untuk komponen DGEMM.

Jika kita melihat statistik mentah, keduanya memiliki chip GK110 yang sama, memiliki statistik yang sebanding di hampir setiap kategori, dan, saya percaya, memiliki arsitektur inti yang sama. Sebelum ada diskon, K20X kira-kira 4x biaya Titan. Dari perspektif efisiensi tampaknya masuk akal untuk menggunakan Titan di atas K20X.

Saya mengalami kesulitan memahami perbedaan di sini, adakah yang bisa menjelaskan situasinya?

Sebagai catatan saya melihat membeli kartu-kartu ini untuk server rak dan menjalankan kemiringan penuh pada dasarnya sampai mereka mati; Namun, saya tidak melihat efisiensi penggunaan beberapa GPU untuk satu pekerjaan menjadi yang terpenting.

Ophion
sumber

Jawaban:

13

Ada beberapa perbedaan, namun mereka tidak harus dalam perangkat keras atau spesifikasi. Perhatikan bahwa ini semua informasi yang saya peroleh dari forum atau rilis berita, jadi bawa semuanya dengan sebutir garam.

Yang pertama adalah "skalabilitas dan keandalan" ( sumber ). K20 dirancang untuk duduk dalam sistem cluster dan berjalan dengan kemiringan penuh 24/7. Titan lebih dirancang untuk bermain game, sehingga akan berjalan pada siklus tugas ini, tetapi mungkin mengalami masalah seumur hidup jika digunakan dengan cara ini.

Driver juga berbeda, namun saya tidak yakin dengan perbedaan utama. Perbedaan dalam fokus desain kartu kemungkinan mengarah pada perolehan kinerja yang relatif kecil untuk kartu Tesla di bagian depan ini.

"Beberapa fitur eksklusif Tesla meliputi:

  • NVIDIA GPUDirect RDMA untuk kinerja InfiniBand
  • Hyper-Q untuk MPI (Hyper-Q untuk CUDA Streams didukung di GeForce GTX TITAN)
  • Perlindungan ECC untuk semua register dan memori internal dan eksternal
  • Alat yang didukung untuk GPU dan manajemen klaster, seperti Bright Computing, Ganglia. "( Sumber )

Ini menunjukkan fakta bahwa perbedaan utama adalah skalabilitas mereka. Jika Anda ingin menjalankan pada desktop di kantor Anda, akan sulit untuk membantah Titan atas K20 untuk perbedaan harga. Jika Anda membutuhkan kinerja ekstra beberapa K20, temukan sendiri pusat HPC dan beli waktu dengan server mereka.

Edit:

Setelah melihat sedikit lebih dalam tentang ECC, saya memperbarui jawaban ini untuk menunjukkan implikasi memilikinya pada K20 dan bukan pada Titan. Informasi berikut adalah parafrase dari info yang ditemukan di sini .

ECC adalah pengecekan error pada DRAM dan register untuk GPU. Kesalahan lunak adalah ketika sedikit salah ditransfer / disimpan. Semakin cepat dan lebih dekat bersama sirkuit, semakin tinggi probabilitas kesalahan lunak. Jika Anda memecahkan satu set ODE berpasangan atau memecahkan sistem linier, satu nomor yang dimatikan satu bit dapat secara signifikan mengubah hasil dengan cara yang tidak dapat direproduksi. Sebagian besar RAM dan cache standar dalam CPU diperiksa kesalahannya menggunakan ECC.

GPU di sisi lain, secara umum, tidak memiliki ECC meskipun bus memori mereka jauh lebih cepat daripada yang ada di CPU. Ini karena jika piksel pada layar mati sedikit demi satu bingkai, kualitas program tidak berkurang. Kesalahan ini juga tidak membuat kesalahan. Oleh karena itu banyak real estat chip (dan biaya) dapat dihemat dengan melewatkan fitur ini. Kerumitan ekstra ini kemungkinan menyebabkan sebagian besar biaya tambahan dari jalur Tesla.

Pelihat Godric
sumber
3
Jawaban bagus +1! Sulit dipercaya fitur-fitur itu mahal. Saya pikir kalimat "Berkembang dengan GeForce, Menyebarkan dengan Tesla" dari situs Nvidia yang terhubung meringkas masalah-masalah penting. Sepertinya solusi terbaik untuk saat ini adalah membeli beberapa GeForce dan menjalankannya dengan keras sampai mereka menyerah begitu saja.
Ophion
3
"Namun ini tidak menghentikan mereka dari digunakan di Oakridge." Cray XK7 dari OLCF bernama "Titan" menggunakan GPU Tesla K20, bukan GTX Titan. NVidia mengatakan bahwa GTX Titan memiliki "teknologi" OLCF Titan, yang merupakan kosakata yang sama yang digunakan ketika mengatakan bahwa mobil ekonomis memiliki "teknologi" mobil Formula-1. (Kinerja GTX Titan cukup bagus, tetapi tidak memiliki ECC dan tidak digunakan dalam instalasi besar yang saya sadari).
Jed Brown
1
Kesalahan saya, saya salah menafsirkan artikel itu. Saya akan memperbarui jawabannya agar tidak menyesatkan.
Godric Seer
2

Menurut pendapat saya perbedaannya tampaknya sebagian besar segmentasi pasar. Jika Anda seorang ilmuwan maka NVidia ingin Anda takut bahwa makalah Anda akan ditolak karena Anda menggunakan GPGPU tanpa banyak kesalahan mengoreksi RAM yang akan tersedia dengan K20X. Demikian pula jika Anda adalah perusahaan maka Anda mungkin ingin membayar 4x jika itu berarti Anda lebih kecil kemungkinannya untuk dituntut karena kecurigaan bahwa perhitungan Anda tidak dikoreksi kesalahan sebanyak mungkin. Gamer individu atau penghobi GPGPU dijual Titan karena mereka memiliki lebih sedikit uang dan mereka lebih sulit dibujuk dengan cara ini.

k20
sumber
2
Saya hanya menjalankan perhitungan dengan ECC, apakah Anda memiliki artikel bagus yang menunjukkan kegagalan sistem non ECC dan breakpoint logis di mana manfaatnya?
Ophion
Bagi mereka yang menginginkan ringkasan eksekutif dari tautan yang sangat baik oleh BenC: kesalahan lunak yang akan diperbaiki ECC adalah sangat jarang, dan makalah ini sejauh merekomendasikan mematikan ECC pada Tesla untuk meningkatkan kecepatan. Peringatan: ini sebenarnya tidak diuji dengan GPU konsumen.
semi-ekstrinsik
0

Itu sangat tergantung pada aplikasi yang Anda jalankan. GPUGRID.net berjalan pada mesin yang tidak memiliki ECC dan semuanya baik-baik saja. Hasilnya sama baiknya dengan yang ada di platform lain. Acellera juga menjual perangkat keras dengan kartu GeForce dan hanya dalam beberapa kasus GPU gagal. GeForce adalah semua yang Anda butuhkan.

David
sumber