Adakah yang bisa memberi saya perkiraan waktu (dalam nanodetik) untuk mengakses cache L1, L2 dan L3, serta memori utama pada prosesor Intel i7?
Meskipun ini bukan pertanyaan pemrograman yang spesifik, mengetahui rincian kecepatan seperti ini diperlukan untuk beberapa tantangan pemrograman latensi rendah.
memory
latency
cpu-cache
low-latency
Ted Graham
sumber
sumber
Jawaban:
Berikut ini adalah Panduan Analisis Kinerja untuk jajaran prosesor i7 dan Xeon. Saya harus menekankan, ini memiliki apa yang Anda butuhkan dan lebih (misalnya, periksa halaman 22 untuk beberapa timing & siklus misalnya).
Selain itu, halaman ini memiliki beberapa rincian tentang siklus jam, dll. Tautan kedua menyajikan nomor-nomor berikut:
EDIT2
:Yang paling penting adalah pemberitahuan di bawah tabel yang dikutip, mengatakan:
EDIT: Saya harus menggarisbawahi bahwa, serta informasi waktu / siklus, dokumen intel di atas membahas lebih banyak (sangat) detail yang berguna dari jajaran prosesor i7 dan Xeon (dari sudut pandang kinerja).
sumber
Angka yang harus diketahui semua orang
Dari: Awalnya oleh Peter Norvig:
- http://norvig.com/21-days.html#answers
- http://surana.wordpress.com/2009/01/01/numbers-everyone-should-know/ ,
- http://sites.google.com/site/io/building-scalable-web-applications-with-google-app-engine
sumber
Biaya untuk mengakses berbagai kenangan di halaman yang cantik
Ringkasan
Nilai mengalami penurunan tetapi distabilkan sejak 2005
Masih ada beberapa perbaikan, prediksi untuk 2020
Lihat juga sumber lainnya
Tua namun masih merupakan penjelasan mendalam yang sangat baik tentang interaksi perangkat keras dan perangkat lunak memori.
Lihat juga
Untuk pemahaman lebih lanjut, saya merekomendasikan presentasi yang sangat baik dari arsitektur cache modern (Juni 2014) dari Gerhard Wellein , Hannes Hofmann dan Dietmar Fey di Universitas Erlangen-Nürnberg .
Orang-orang berbahasa Perancis dapat menghargai artikel oleh SpaceFox yang membandingkan prosesor dengan pengembang, keduanya menunggu informasi yang diperlukan untuk terus bekerja.
sumber
[A]
posting di bawah ini.Hanya demi tinjauan 2020 tentang prediksi untuk 2025:
Sekitar 44 tahun terakhir dari teknologi sirkuit terpadu, prosesor klasik (non-kuantum) berevolusi, secara harfiah dan fisik "Per Aspera ad Astra" . Dekade terakhir telah membuktikan, proses klasik telah mendekati beberapa rintangan, yang tidak memiliki jalur fisik yang dapat dicapai.
Number of logical cores
dapat dan dapat tumbuh, namun tidak lebih dari yang sulit jika bukan tidak mungkin untuk menembus langit-langit berbasis fisika sudah dapat dan dapat tumbuh, namun kurang dari (daya, kebisingan, "jam") dapat tumbuh, namun masalah dengan distribusi daya & disipasi panas akan meningkat dapat tumbuh, memiliki manfaat langsung dari jejak-cache yang besar dan memori-I / O yang lebih cepat dan lebih luas & manfaat tidak langsung dari pengalihan konteks paksa sistem yang lebih jarang karena kami dapat memiliki lebih banyak inti untuk memisahkan utas / proses lain di antaraO(n^2~3)
Frequency [MHz]
Transistor Count
O(n^2~3)
Power [W]
Single Thread Perf
(Kredit pergi ke Leonardo Suriano & Karl Rupp)
Hanya demi tinjauan tahun 2015 tentang prediksi untuk tahun 2020:
Hanya demi perbandingan lanskap latensi CPU dan GPU:
Bukan tugas yang mudah untuk membandingkan bahkan jajaran CPU / cache / DRAM yang paling sederhana (bahkan dalam model akses memori yang seragam), di mana kecepatan DRAM merupakan faktor dalam menentukan latensi, dan memuat latensi (sistem jenuh), di mana yang terakhir memerintah dan sesuatu yang akan dialami aplikasi perusahaan lebih dari sistem yang tidak terisi penuh.
Mesin-GPU telah menerima banyak pemasaran teknis, sementara dependensi internal yang dalam adalah kunci untuk memahami kekuatan nyata dan juga kelemahan nyata yang dialami arsitektur ini dalam praktiknya (biasanya jauh berbeda dari pemasaran agresif yang dibayangkan ekspektasi).
Memahami internalitas dengan demikian jauh lebih penting, daripada di bidang lain, di mana arsitektur diterbitkan dan banyak tolok ukur tersedia secara bebas. Banyak terima kasih kepada penguji mikro-GPU, yang telah menghabiskan waktu dan kreativitas mereka untuk melepaskan kebenaran dari skema kerja nyata di dalam pendekatan kotak hitam yang menguji perangkat GPU.
Permintaan maaf saya untuk "gambaran yang lebih besar", tetapi penghentian latensi juga memiliki batasan utama yang dipaksakan dari kapasitas smREG / L1 / L2 dan chip hit / miss-rates.
Garis bawah?
Setiap desain bermotivasi latensi rendah harus merekayasa balik "I / O-hidraulik" (karena 0 1-XFER tidak dapat dikompresi secara alami) dan latensi yang dihasilkan menentukan amplop kinerja untuk setiap solusi GPGPU baik secara komputasional ( baca intensif : di mana biaya pemrosesan sedikit lebih memaafkan XFER latensi buruk ...) atau tidak ( baca : di mana (mungkin mengejutkan seseorang) CPU-s lebih cepat dalam pemrosesan ujung-ke-ujung, daripada kain GPU [kutipan tersedia] ).
sumber
Lihatlah plot "tangga" ini, dengan sempurna menggambarkan waktu akses yang berbeda (dalam hal jam tics). Perhatikan CPU merah memiliki "langkah" tambahan, mungkin karena memiliki L4 (sementara yang lain tidak).
Diambil dari artikel Extremetech ini.
Dalam ilmu komputer ini disebut "kompleksitas I / O".
sumber