Mengapa generasi prosesor yang lebih baru lebih cepat pada kecepatan clock yang sama?

38

Sebagai contoh, mengapa sebuah Core i5 dual-core 2,66 GHz lebih cepat daripada Core 2 Duo 2,66 GHz, yang juga merupakan dual-core?

Apakah ini karena instruksi baru yang dapat memproses informasi dalam siklus clock yang lebih sedikit? Apa perubahan arsitektur lain yang terlibat?

Pertanyaan ini sering muncul dan jawabannya biasanya sama. Posting ini dimaksudkan untuk memberikan jawaban yang pasti dan kanonik untuk pertanyaan ini. Jangan ragu untuk mengedit jawaban untuk menambahkan detail tambahan.

agz
sumber
Wow, baik terobosan maupun david adalah jawaban yang bagus ... Saya tidak tahu harus memilih yang mana: P
agz
Juga set instruksi yang lebih baik dan lebih banyak register. misalnya MMX (sangat lama sekarang), dan x86_64 (Ketika AMD menemukan x86_64 mereka menambahkan beberapa perbaikan pemecahan kompatibilitas, ketika dalam mode 64 bit. Mereka menyadari bahwa komparabilitas akan tetap rusak).
ctrl-alt-delor
Untuk perbaikan besar arsitektur x86, diperlukan set instruksi baru, tetapi jika itu dilakukan maka itu tidak akan menjadi x86 lagi. Itu akan menjadi PowerPC, mips, Alpha, ... atau ARM.
ctrl-alt-delor

Jawaban:

30

Itu bukan karena instruksi yang lebih baru biasanya. Hanya karena prosesor membutuhkan siklus instruksi yang lebih sedikit untuk menjalankan instruksi yang sama. Ini bisa karena sejumlah besar alasan:

  1. Tembolok besar berarti lebih sedikit waktu terbuang menunggu ingatan.

  2. Lebih banyak unit eksekusi berarti lebih sedikit waktu menunggu untuk mulai beroperasi pada instruksi.

  3. Prediksi cabang yang lebih baik berarti lebih sedikit waktu yang terbuang untuk secara spekulatif menjalankan instruksi yang tidak pernah benar-benar perlu dieksekusi.

  4. Peningkatan unit eksekusi berarti lebih sedikit waktu menunggu instruksi untuk menyelesaikan.

  5. Pipa yang lebih pendek berarti pipa yang diisi lebih cepat.

Dan seterusnya.

David Schwartz
sumber
Saya percaya arsitektur Core memiliki 14-15 pipeline ( ref ), dan Nehalem / Sandy Bridge secara kasar memiliki 14-17 pipeline stage ( ref ).
Terobosan
Pipa yang lebih pendek lebih mudah untuk tetap penuh dan mengurangi hukuman dari flushes pipa. Pipa yang lebih panjang umumnya memungkinkan kecepatan clock yang lebih tinggi.
David Schwartz
Itulah yang saya maksud, saya pikir kedalaman pipa itu sendiri tetap sama atau meningkat . Juga di Intel 64 dan IA-32 SW Dev Manuals , penyebutan terakhir perubahan pipa adalah di Vol. 1, Ch. 2.2.3 / 2.2.4 (Intel Core / Atom microarchitectures).
Terobosan
2
Upaya untuk meningkatkan kecepatan clock telah menghasilkan jaringan pipa yang lebih panjang. Itu menjadi konyol (sebanyak 31 tahap!) Menjelang akhir era NetBurst. Hari-hari ini, itu adalah keputusan rekayasa yang rumit dengan kelebihan dan kekurangan dari kedua sisi.
David Schwartz
juga peningkatan prediksi cabang, peningkatan pemesanan instruksi / optimisasi / peningkatan unit mux, miniaturisasi (pengurangan panas) dan desain mati (peningkatan jalur / sirkuit satu-mati, dll), ...
Shaun Wilson
40

Merancang prosesor untuk menghasilkan kinerja tinggi jauh lebih dari sekadar meningkatkan clock rate. Ada banyak cara lain untuk meningkatkan kinerja, diaktifkan melalui hukum Moore dan berperan dalam desain prosesor modern.

Nilai jam tidak dapat meningkat tanpa batas.

  • Sekilas, mungkin terlihat bahwa prosesor hanya menjalankan aliran instruksi satu demi satu, dengan peningkatan kinerja yang dicapai melalui laju clock yang lebih tinggi. Namun, meningkatkan laju jam saja tidak cukup. Konsumsi daya dan output panas meningkat seiring laju jam naik.

  • Dengan kecepatan clock yang sangat tinggi, peningkatan tegangan inti CPU yang signifikan menjadi perlu. Karena TDP meningkat dengan kuadrat inti V , kami akhirnya mencapai titik di mana konsumsi daya yang berlebihan, keluaran panas, dan persyaratan pendinginan mencegah peningkatan lebih lanjut dalam laju jam. Batas ini tercapai pada tahun 2004, pada zaman Pentium 4 Prescott . Sementara peningkatan baru-baru ini dalam efisiensi daya telah membantu, peningkatan laju jam yang signifikan tidak lagi layak. Lihat: Mengapa produsen CPU berhenti meningkatkan kecepatan clock prosesor mereka?

Grafik kecepatan clock stock di PC antusias terkini selama bertahun-tahun.
Grafik kecepatan clock stock di PC antusias terkini selama bertahun-tahun. Sumber gambar

  • Melalui hukum Moore , sebuah pengamatan yang menyatakan bahwa jumlah transistor pada sirkuit terintegrasi berlipat ganda setiap 18 hingga 24 bulan, terutama sebagai akibat dari penyusutan cetakan. , berbagai teknik yang meningkatkan kinerja telah diimplementasikan. Teknik-teknik ini telah disempurnakan dan disempurnakan selama bertahun-tahun, memungkinkan lebih banyak instruksi untuk dieksekusi selama periode waktu tertentu. Teknik-teknik ini dibahas di bawah ini.

Aliran instruksi yang tampaknya berurutan seringkali dapat diparalelkan.

  • Meskipun sebuah program dapat terdiri dari serangkaian instruksi untuk dieksekusi satu demi satu, instruksi ini, atau bagian-bagiannya, dapat sangat sering dijalankan secara bersamaan. Ini disebut level-level parallelism (ILP) . Mengeksploitasi ILP sangat penting untuk mencapai kinerja tinggi, dan prosesor modern menggunakan banyak teknik untuk melakukannya.

Pipelining memecah instruksi menjadi potongan-potongan kecil yang dapat dieksekusi secara paralel.

  • Setiap instruksi dapat dipecah menjadi urutan langkah-langkah, yang masing-masing dijalankan oleh bagian prosesor yang terpisah. Instruksi pipelining memungkinkan banyak instruksi untuk melalui langkah-langkah ini satu demi satu tanpa harus menunggu setiap instruksi selesai sepenuhnya. Pipelining memungkinkan kecepatan clock yang lebih tinggi: dengan memiliki satu langkah dari setiap instruksi yang lengkap dalam setiap siklus clock, lebih sedikit waktu yang dibutuhkan untuk setiap siklus daripada jika seluruh instruksi harus diselesaikan satu per satu.

  • The pipa RISC klasik berisi lima tahap: instruksi fetch, decode instruksi, pelaksanaan instruksi, akses memori, dan writeback. Prosesor modern memecah eksekusi menjadi lebih banyak langkah, menghasilkan saluran pipa yang lebih dalam dengan lebih banyak tahapan (dan meningkatkan laju clock yang dapat dicapai karena setiap tahap lebih kecil dan membutuhkan waktu lebih sedikit untuk menyelesaikannya), tetapi model ini harus memberikan pemahaman dasar tentang cara kerja pemipaan perpipaan.

Diagram dari pipa instruksi lima tahap
Sumber gambar

Namun, pipelining dapat menimbulkan bahaya yang harus diselesaikan untuk memastikan eksekusi program yang benar.

  • Karena bagian yang berbeda dari setiap instruksi dieksekusi pada saat yang sama, adalah mungkin untuk terjadi konflik yang mengganggu pelaksanaan yang benar. Ini disebut bahaya . Ada tiga jenis bahaya: data, struktural, dan kontrol.

  • Bahaya data terjadi ketika instruksi membaca dan memodifikasi data yang sama pada saat yang sama atau dalam urutan yang salah, berpotensi menyebabkan hasil yang salah. Bahaya struktural terjadi ketika beberapa instruksi perlu menggunakan bagian tertentu dari prosesor pada saat yang bersamaan. Bahaya kontrol terjadi ketika instruksi cabang bersyarat ditemukan.

  • Bahaya ini dapat diatasi dengan berbagai cara. Solusi paling sederhana adalah dengan hanya menunda pipa, sementara menunda pelaksanaan satu atau instruksi dalam pipa ditahan untuk memastikan hasil yang benar. Ini dihindari sedapat mungkin karena mengurangi kinerja. Untuk bahaya data, teknik seperti penerusan operan digunakan untuk mengurangi kedai. Bahaya pengendalian ditangani melalui prediksi cabang , yang membutuhkan perawatan khusus dan dibahas di bagian selanjutnya.

Prediksi cabang digunakan untuk menyelesaikan bahaya kontrol yang dapat mengganggu seluruh pipa.

  • Bahaya pengendalian, yang terjadi ketika cabang bersyarat ditemukan, sangat serius. Cabang-cabang memperkenalkan kemungkinan bahwa eksekusi akan berlanjut di tempat lain dalam program daripada hanya instruksi berikutnya dalam aliran instruksi, berdasarkan pada apakah kondisi tertentu benar atau salah.

  • Karena instruksi selanjutnya yang harus dilakukan tidak dapat ditentukan sampai kondisi cabang dievaluasi, tidak mungkin untuk memasukkan instruksi apa pun ke dalam pipa setelah cabang tanpa ada. Pipa karena itu dikosongkan ( memerah ) yang dapat membuang siklus clock hampir sebanyak ada tahapan dalam pipa. Cabang cenderung terjadi sangat sering dalam program, sehingga bahaya kontrol dapat sangat mempengaruhi kinerja prosesor.

  • Prediksi cabang mengatasi masalah ini dengan menebak apakah cabang akan diambil. Cara paling sederhana untuk melakukan ini adalah dengan mengasumsikan bahwa cabang selalu diambil atau tidak pernah diambil. Namun, prosesor modern menggunakan teknik yang jauh lebih canggih untuk akurasi prediksi yang lebih tinggi. Intinya, prosesor melacak cabang sebelumnya dan menggunakan informasi ini dalam beberapa cara untuk memprediksi instruksi selanjutnya yang akan dieksekusi. Pipa kemudian dapat dimasukkan dengan instruksi dari lokasi yang benar berdasarkan prediksi.

  • Tentu saja, jika prediksi itu salah, instruksi apa pun yang dimasukkan melalui pipa setelah cabang harus dijatuhkan, sehingga menyiram pipa. Hasilnya, keakuratan prediktor cabang menjadi semakin penting karena pipa semakin lama semakin panjang. Teknik prediksi cabang tertentu berada di luar cakupan jawaban ini.

Tembolok digunakan untuk mempercepat akses memori.

  • Prosesor modern dapat menjalankan instruksi dan memproses data jauh lebih cepat daripada yang dapat diakses di memori utama. Ketika prosesor harus mengakses RAM, eksekusi dapat terhenti untuk waktu yang lama sampai data tersedia. Untuk mengurangi efek ini, area memori kecil berkecepatan tinggi yang disebut cache disertakan pada prosesor.

  • Karena ruang terbatas yang tersedia pada die prosesor, ukuran cache sangat terbatas. Untuk memanfaatkan kapasitas terbatas ini, cache hanya menyimpan data yang paling baru atau sering diakses ( temporal locality ). Karena akses memori cenderung berkerumun dalam area tertentu ( lokalitas spasial ), blok data di dekat apa yang baru-baru ini diakses juga disimpan dalam cache. Lihat: Lokalitas referensi

  • Cache juga disusun dalam berbagai tingkatan ukuran yang berbeda untuk mengoptimalkan kinerja karena cache yang lebih besar cenderung lebih lambat daripada cache yang lebih kecil. Misalnya, prosesor mungkin memiliki cache level 1 (L1) yang hanya berukuran 32 KB, sedangkan cache level 3 (L3) -nya bisa beberapa megabita besar. Ukuran cache, serta asosiatifitas cache, yang memengaruhi cara prosesor mengelola penggantian data pada cache penuh, secara signifikan memengaruhi peningkatan kinerja yang diperoleh melalui cache.

Eksekusi out-of-order mengurangi warung karena bahaya dengan memungkinkan instruksi independen untuk dieksekusi terlebih dahulu.

  • Tidak setiap instruksi dalam aliran instruksi bergantung satu sama lain. Misalnya, meski a + b = charus dieksekusi sebelumnya c + d = e, a + b = cdan d + e = fbersifat independen dan dapat dieksekusi pada saat bersamaan.

  • Eksekusi out-of-order memanfaatkan fakta ini untuk memungkinkan instruksi lain yang independen untuk dieksekusi sementara satu instruksi terhenti. Alih-alih membutuhkan instruksi untuk mengeksekusi satu demi satu secara berbaris,perangkat keras penjadwalan ditambahkan untuk memungkinkan instruksi independen untuk dieksekusi dalam urutan apa pun. Instruksi dikirimkan ke antrian instruksi dan dikeluarkan ke bagian prosesor yang sesuai ketika data yang dibutuhkan tersedia. Dengan begitu, instruksi yang macet menunggu data dari instruksi sebelumnya tidak mengikat instruksi selanjutnya yang independen.

Diagram dari eksekusi out-of-order
Sumber gambar

  • Diperlukan beberapa struktur data baru dan diperluas untuk melakukan eksekusi out-of-order. Antrian instruksi yang disebutkan di atas, stasiun reservasi , digunakan untuk menyimpan instruksi sampai data yang diperlukan untuk eksekusi tersedia. The re-order penyangga (ROB) digunakan untuk melacak keadaan petunjuk berlangsung, dalam urutan di mana mereka diterima, sehingga petunjuk diselesaikan dalam urutan yang benar. Sebuah register file yang melampaui jumlah register yang disediakan oleh arsitektur itu sendiri diperlukan untuk mendaftar penggantian nama , yang membantu mencegah petunjuk jika tidak independen dari menjadi tergantung karena kebutuhan untuk berbagi set terbatas register yang disediakan oleh arsitektur.

Arsitektur Superscalar memungkinkan beberapa instruksi dalam aliran instruksi untuk dieksekusi pada saat yang sama.

  • Teknik-teknik yang dibahas di atas hanya meningkatkan kinerja pipa instruksi. Teknik-teknik ini saja tidak memungkinkan lebih dari satu instruksi diselesaikan per siklus clock. Namun, sering kali memungkinkan untuk mengeksekusi instruksi individual dalam aliran instruksi secara paralel, seperti ketika mereka tidak saling bergantung (seperti yang dibahas di bagian eksekusi di luar pesanan di atas).

  • Arsitektur Superscalar memanfaatkan paralelisme tingkat instruksi ini dengan memungkinkan instruksi dikirim ke beberapa unit fungsional sekaligus. Prosesor dapat memiliki beberapa unit fungsional dari jenis tertentu (seperti ALU integer) dan / atau berbagai jenis unit fungsional (seperti floating-point dan unit integer) di mana instruksi dapat dikirim secara bersamaan.

  • Dalam prosesor superscalar, instruksi dijadwalkan seperti dalam desain out-of-order, tetapi sekarang ada beberapa port masalah , yang memungkinkan instruksi yang berbeda dikeluarkan dan dieksekusi pada saat yang sama. Sirkuit penguraian kode instruksi yang diperluas memungkinkan prosesor untuk membaca beberapa instruksi sekaligus dalam setiap siklus clock dan menentukan hubungan di antara mereka. Prosesor modern berkinerja tinggi dapat menjadwalkan hingga delapan instruksi per siklus clock, tergantung pada apa yang dilakukan setiap instruksi. Beginilah cara prosesor dapat menyelesaikan beberapa instruksi per siklus clock. Lihat: Mesin eksekusi Haswell di AnandTech

Diagram mesin eksekusi Haswell
Sumber gambar

  • Namun, arsitektur superscalar sangat sulit untuk dirancang dan dioptimalkan. Memeriksa dependensi di antara instruksi memerlukan logika yang sangat kompleks yang ukurannya dapat menskala secara eksponensial ketika jumlah instruksi simultan meningkat. Juga, tergantung pada aplikasinya, hanya ada sejumlah instruksi terbatas dalam setiap aliran instruksi yang dapat dieksekusi pada saat yang sama, sehingga upaya untuk mengambil keuntungan yang lebih besar dari ILP menderita dari pengembalian yang semakin berkurang.

Instruksi lebih lanjut ditambahkan yang melakukan operasi kompleks dalam waktu kurang.

  • Dengan meningkatnya anggaran transistor, dimungkinkan untuk menerapkan instruksi yang lebih maju yang memungkinkan operasi kompleks dilakukan dalam waktu yang lebih singkat. Contohnya termasuk set instruksi vektor seperti SSE dan AVX yang melakukan perhitungan pada beberapa bagian data pada saat yang sama dan set instruksi AES yang mempercepat enkripsi dan dekripsi data.

  • Untuk melakukan operasi kompleks ini, prosesor modern menggunakan operasi mikro (μops) . Instruksi kompleks diterjemahkan ke dalam urutan μops, yang disimpan di dalam buffer khusus dan dijadwalkan untuk dieksekusi secara terpisah (sejauh diizinkan oleh dependensi data). Ini memberikan lebih banyak ruang bagi prosesor untuk mengeksploitasi ILP. Untuk lebih meningkatkan kinerja, cache μop khusus dapat digunakan untuk menyimpan μops yang baru didekodekan, sehingga μop untuk instruksi yang baru-baru ini dijalankan dapat dilihat dengan cepat.

  • Namun, penambahan instruksi ini tidak secara otomatis meningkatkan kinerja. Instruksi baru dapat meningkatkan kinerja hanya jika aplikasi ditulis untuk menggunakannya. Adopsi instruksi ini terhambat oleh kenyataan bahwa aplikasi yang menggunakannya tidak akan bekerja pada prosesor yang lebih lama yang tidak mendukungnya.


Jadi bagaimana teknik ini meningkatkan kinerja prosesor dari waktu ke waktu?

  • Pipa telah menjadi lebih lama selama bertahun-tahun, mengurangi jumlah waktu yang dibutuhkan untuk menyelesaikan setiap tahap dan karenanya memungkinkan laju clock yang lebih tinggi. Namun, antara lain, pipa yang lebih panjang meningkatkan penalti untuk prediksi cabang yang salah, sehingga pipa tidak bisa terlalu panjang. Dalam mencoba mencapai kecepatan clock yang sangat tinggi, prosesor Pentium 4 menggunakan jaringan pipa yang sangat panjang, hingga 31 tahap di Prescott . Untuk mengurangi defisit kinerja, prosesor akan mencoba menjalankan instruksi bahkan jika mereka gagal, dan akan terus berusaha sampai mereka berhasil . Hal ini menyebabkan konsumsi daya yang sangat tinggi dan mengurangi kinerja yang diperoleh dari hyper-threading . Prosesor yang lebih baru tidak lagi menggunakan pipa selama ini, terutama karena penskalaan laju jam telah mencapai dinding; Haswell menggunakan pipa yang panjangnya bervariasi antara 14 dan 19 tahap, dan arsitektur berdaya rendah menggunakan pipa yang lebih pendek (Intel AtomSilvermont memiliki 12 hingga 14 tahap).

  • Keakuratan prediksi cabang telah meningkat dengan arsitektur yang lebih maju, mengurangi frekuensi flushes pipa yang disebabkan oleh kesalahan prediksi dan memungkinkan lebih banyak instruksi untuk dieksekusi secara bersamaan. Mempertimbangkan panjang pipa dalam prosesor saat ini, ini sangat penting untuk mempertahankan kinerja tinggi.

  • Dengan meningkatnya anggaran transistor, cache yang lebih besar dan lebih efektif dapat tertanam dalam prosesor, mengurangi warung karena akses memori. Akses memori dapat membutuhkan lebih dari 200 siklus untuk diselesaikan pada sistem modern, jadi penting untuk mengurangi kebutuhan untuk mengakses memori utama sebanyak mungkin.

  • Prosesor yang lebih baru dapat memanfaatkan ILP dengan lebih baik melalui logika eksekusi superscalar yang lebih maju dan desain "lebih luas" yang memungkinkan lebih banyak instruksi untuk diterjemahkan dan dieksekusi secara bersamaan. The Haswell arsitektur dapat memecahkan kode empat instruksi dan mengirimkan 8 mikro-operasi per siklus clock. Peningkatan anggaran transistor memungkinkan lebih banyak unit fungsional seperti integer ALU untuk dimasukkan dalam inti prosesor. Struktur data utama yang digunakan dalam eksekusi out-of-order dan superscalar, seperti stasiun reservasi, buffer pemesanan ulang, dan file register, diperluas dalam desain yang lebih baru, yang memungkinkan prosesor mencari jendela instruksi yang lebih luas untuk mengeksploitasi ILP mereka. Ini adalah kekuatan pendorong utama di balik peningkatan kinerja prosesor saat ini.

  • Instruksi yang lebih kompleks dimasukkan dalam prosesor yang lebih baru, dan semakin banyak aplikasi menggunakan instruksi ini untuk meningkatkan kinerja. Kemajuan dalam teknologi kompiler, termasuk peningkatan dalam pemilihan instruksi dan vektorisasi otomatis , memungkinkan penggunaan instruksi ini secara lebih efektif.

  • Selain di atas, integrasi yang lebih besar dari bagian-bagian yang sebelumnya eksternal ke CPU seperti northbridge, memory controller, dan jalur PCIe mengurangi I / O dan latensi memori. Ini meningkatkan throughput dengan mengurangi warung yang disebabkan oleh keterlambatan mengakses data dari perangkat lain.

bwDraco
sumber
6
Ini bisa menjadi posting blog yang bagus.
Mokubai
Peningkatan efisiensi energi juga merupakan faktor yang diberikan dinding daya.
Paul A. Clayton
Ini bukan lagi tentang seberapa cepat jam itu, ini lebih tentang berapa banyak instruksi per siklus jam, dapat diproses. Jika sebuah prosesor memiliki bandwidth untuk memproses data sebanyak 4x dari memori ke cache, prosesor itu secara efektif 4x lebih cepat walaupun memiliki jam yang lebih lambat. Itulah sebabnya AMD mengalami banyak kesulitan untuk mencocokkan kinerja produk Intel
Ramhound
18

Referensi definitif absolut adalah Manual Pengembang Perangkat Lunak Arsitektur Intel 64 dan IA-32 . Mereka merinci perubahan antar arsitektur, dan mereka adalah sumber yang bagus untuk memahami arsitektur x86.

Saya sarankan Anda mengunduh volume gabungan 1 hingga 3C (tautan unduhan pertama di halaman itu). Volume 1 Bab 2.2 memiliki informasi yang Anda inginkan.


Beberapa perbedaan umum yang saya lihat tercantum dalam bab itu, pergi dari Core ke mikroarsitektur Nehalem / Sandy Bridge adalah:

  • meningkatkan prediksi cabang, pemulihan lebih cepat dari misprediksi
  • Teknologi HyperThreading
  • pengontrol memori terintegrasi, hirearchy cache baru
  • penanganan pengecualian floating-point lebih cepat (khusus Sandy Bridge)
  • Peningkatan bandwidth LEA (khusus Sandy Bridge)
  • Ekstensi instruksi AVX (khusus Sandy Bridge)

Daftar lengkap dapat ditemukan di tautan yang disediakan di atas (Vol. 1, Bab 2.2).

Penerobosan
sumber
0

Semua yang dikatakan sebelumnya adalah benar, tetapi pada tingkat tertentu. Jawaban saya singkat: prosesor generasi baru "lebih cepat" terutama karena mereka memiliki cache yang lebih besar dan lebih terorganisir . Ini adalah faktor utama dalam kinerja komputer. Untuk pertimbangan kuantitatif lainnya, lihat " Majalah Linux: Apa yang mendorong kinerja dalam HPC "

Singkatnya, untuk aplikasi yang paling umum (seperti dalam koleksi SPEC), faktor pembatasnya adalah memori. Ketika perhitungan berkelanjutan yang sebenarnya sedang berjalan, semua cache dimuat dengan data, tetapi setiap cache yang hilang menyebabkan pipa eksekusi CPU terhenti dan menunggu. Masalahnya adalah tidak peduli seberapa canggih pipeline CPU, atau instruksi yang lebih baik, paralelisme tingkat instruksi masih sangat terbatas (kecuali beberapa kasus prefetched khusus yang sangat dioptimalkan). Setelah ketergantungan kritis ditemukan, semua paralelisme berakhir dengan lima-sepuluh jam CPU, sementara itu dibutuhkan ratusan jam CPU untuk mengusir caheline dan memuat yang baru dari memori utama. Jadi prosesor menunggu apa-apa. Seluruh konsep ini juga berlaku untuk multicores.

Jadi, jika seseorang menginginkan PC "lebih cepat", belilah dengan CPU yang memiliki cache terbesar yang Anda mampu.

Ale..chenski
sumber
-1

Karena mereka meningkatkan seberapa banyak Instruksi Per Per siklus (jam) CPU dapat melakukan melalui termasuk unit eksekusi yang lebih tinggi (unit komputasi), untuk alasan itu meningkatkan IPC, di samping itu, mereka mengurangi cache, ram, decode, mengambil latency, meningkatkan operasi out of order dan prediksi cabang, setelah itu menambahkan lebih banyak cache sambil memiliki latensi yang lebih rendah. Cache bandwidth yang lebih tinggi. Tambahkan instruksi baru sekarang dan lagi. Kurangi Siklus yang diinginkan Per Instruksi (CPI)

Kecepatan clock hanya merupakan bagian dari kinerja CPU, komponen penting, tetapi sayangnya metode node telah menabrak dinding selama beberapa dekade terakhir, tidak ada yang bisa melampaui lima.0-5.2.2 GHz meskipun pendingin air berkualitas , tanpa menggunakan es kering atau nitrogen cair.

mandar shewale
sumber