Apakah prosesor modern memiliki redundansi dalam unit logikanya untuk mengkompensasi kesalahan produksi?

10

Prosesor modern terdiri dari milyaran transistor dan teknologi produksi baru sering mengalami masalah dengan hasil, setidaknya di bulan-bulan pertama, tapi saya kira bahkan setelah bertahun-tahun akan ada chip yang rusak setiap saat.

Saya tahu bahwa dalam blok besar (misalnya cache) ada kemungkinan untuk hanya menonaktifkan bagian-bagian itu dan dengan itu mengurangi jumlah memori yang tersedia (sehingga Anda setidaknya dapat menjual chip dengan harga yang lebih rendah daripada membuangnya). Tetapi apakah ada sesuatu yang serupa untuk unit logika? Saya sadar bahwa ada beberapa ALU untuk pembubaran, tetapi apakah ini hal yang hanya menonaktifkan salah satu dari mereka jika ada kesalahan produksi? Atau apakah ada ALU cadangan tambahan? Karena bagi saya sulit untuk percaya bahwa fab hanya membuang setiap chip di mana ada transistor yang salah di bagian logika, sementara menonaktifkan ALU lengkap akan dengan benar mengurangi kekuatan pemrosesan yang dapat dicapai secara signifikan.

jusaca
sumber
Dugaan saya saja. Harga produksi wafer silikon relatif rendah pada jumlah besar, dan Anda dapat mengujinya sebelum perumahan dalam kasus ini, sehingga Anda dapat menghasilkan chip lengkap dengan tingkat kegagalan yang relatif rendah. > 50% dari harga adalah pemasaran murni. Saya juga berpikir bahwa banyak variasi prosesor dalam keluarga yang sama dibuat pada topologi yang sama dan hanya berbeda dalam beberapa fitur mati / inti / cache (seperti yang telah Anda tulis), sehingga produsen memiliki celah besar untuk mempertahankan tingkat kegagalan produksi yang rendah bahkan dengan unit yang rusak. Tetapi saya ragu mereka memiliki, katakanlah, beberapa ALU yang dilindungi untuk inti yang sama.
cyclone125
Saya pikir contoh yang paling terkenal dari ini adalah Intel 486SX, yang mati sama seperti DX dengan FPU yang dinonaktifkan. Tapi saya akan tertarik untuk mendengar apa keadaan modern ini.
pjc50
Saya sangat meragukannya. Jumlah logika dan waktu desain yang diperlukan untuk memungkinkan redundansi tingkat rendah dengan kecepatan prosesor kontemporer tidak akan sepadan. Redundansi blok-level (core, fpu, cache) atau hanya menonaktifkan blok akan jauh lebih dari cukup untuk secara signifikan meningkatkan hasil. Dan pada harga prosesor saat ini dan ukuran wafer bahkan hasil 5% bisa menguntungkan.
Edgar Brown
Jadi Anda berpikir, setiap kali ALU tidak dapat digunakan, mereka hanya menonaktifkan inti. Ya, mungkin saja kemungkinan. Saya berharap seseorang di sini benar-benar tahu.
jusaca
1
Ya, mereka menonaktifkan inti. Ini adalah praktik yang disebut "binning".
DKNguyen

Jawaban:

3

Seperti yang dikatakan orang lain, sulit untuk melihat logika ALU yang berlebihan dalam sebuah inti.

Inti dirancang untuk mengoptimalkan throughput. Logika tambahan apa pun untuk ALU yang berlebihan akan berdampak pada kinerja dan peningkatan area akan memperlambat keseluruhan inti. Seiring perkembangan teknologi, silikon menjadi lebih kecil, membuat inti lebih cepat, tetapi pada dasarnya menggunakan properti intelektual yang sama. Mengapa ALU redundan, ketika ruang tersedia untuk core redundan untuk meningkatkan hasil produksi?

Pada 2011, Intel mengajukan paten untuk setidaknya 32 core dengan 16 core aktif dan 16 cadangan. Status paten inti yang gagal akan memiliki suhu lebih tinggi yang memungkinkan inti cadangan untuk diaktifkan. Pada dasarnya, alokasi inti dinamis sesuai kebutuhan.

Anda dapat mengalokasikan core berdaya tinggi dan berdaya rendah seperti yang dipersyaratkan oleh tugas. Atau alihkan inti buruk yang terdeteksi oleh tingkat suhu yang lebih tinggi. Operasikan inti dengan cara kotak-kotak untuk mengurangi panas.

Intel Patent: Meningkatkan Keandalan Prosesor Banyak-Inti

Baja Tahan Karat
sumber
Itu benar-benar masuk akal, saya tidak memikirkan dampak kinerja, yang bisa dimiliki oleh area silikon dalam satu inti. Menonaktifkan seluruh inti tampaknya menjadi cara untuk pergi, karena jawaban lain juga menyiratkan.
jusaca
5

Tidak dalam logika.

Namun jika ada memori besar (SRAM), biasanya menggunakan memori dengan 'redundansi'. Ini memiliki logika khusus yang dapat diprogram untuk menggantikan area, seringkali sejumlah baris atau kolom.

Area gagal terdeteksi selama pengujian dan kemudian memori yang berlebihan diprogram untuk mengganti lokasi yang salah.

Namun 'penggantian' ini harus diatur menggunakan bit OTP (One-Time-Programmable) atau memori lain yang menyimpan nilainya. Jadi, memori ini hanya digunakan dalam chip yang memiliki fitur 'memori permanen', atau fitur pemrograman seperti itu harus ditambahkan juga, dengan semua biaya yang dikeluarkan.

Tua bangka
sumber
Apakah Anda pikir bit OTP ini diprogram secara elektronik, seperti membakar sekering atau sesuatu, atau apakah produsen besar harus langsung mati dengan pemangkasan laser?
jusaca
1
OTP adalah sekering on-chip yang dapat diprogram secara elektronik (seperti EEPROM tetapi kemudian secara permanen) Pengguna akhir juga dapat membakar mereka untuk nomor seri, alamat Ethernet, kunci enkripsi dll.
Oldfart
4

Ini tentu bukan kasus untuk MCU sederhana, atau prosesor inti tunggal yang khas. Biaya memiliki blok cadangan tidak akan sepadan, dan prosesor-prosesor itu tidak menggunakan proses pengerjaan mutakhir, dan tidak memerlukan area silikon yang besar, sehingga hasilnya cukup baik.

Namun, ini dilakukan untuk beberapa prosesor multi-core, yang area silikonnya agak besar, dan yang menggunakan proses ukiran yang lebih baik yang dapat menyebabkan tingkat cacat yang lebih tinggi. Pada prosesor ini, seluruh inti dapat dinonaktifkan (yang merupakan blok logika agak besar, mengandung lebih dari ALU) ketika mereka rusak. Prosesor ini kemudian dijual sebagai model kelas bawah.

Sumber: /skeptics/15704/are-low-spec-computer-parts-just-faulty-high-spec-computer-parts

redup kehilangan kepercayaan pada SE
sumber
3

Saya pasti tidak bisa menjawab pertanyaan Anda dengan pasti. Tidak masuk akal untuk menonaktifkan unit yang lebih kecil dari 1 inti, karena itu menjadi "set fitur" yang sangat halus yang dapat diaktifkan atau tidak, dan produk Cartesian dari semua fitur yang mungkin akan membuat segudang model CPU yang mungkin. Sudah banyak model CPU, membuatnya 10-100 kali lebih banyak pasti tidak akan membantu!

Aspek lain adalah bahwa miliaran transistor digunakan (sebagian besar) dalam membuat cache, dan untuk transistor yang rusak ada produsen pasti menjual CPU dengan bagian-bagian dari cache on-die mereka dinonaktifkan (mis. Lihat, AMD Thorton vs AMD Barton).

Tetapi saya dapat memberi tahu Anda sebuah anekdot yang saya dengar dari orang yang saya percayai. Dahulu kala saya adalah seorang overclocker yang penasaran. Di masa saya, pilihan CPU yang bisa di-overclock adalah AMD Athlon Thoroughbred:

Athlon Thoroughbred

Saat memasang solusi pendingin khusus, seseorang harus sangat berhati-hati saat memasang heatsink, karena menekan langsung pada die. Jika Anda menerapkan tekanan yang tidak rata, cetakan tersebut terkenal mudah retak di sudut-sudut, jika Anda menerapkan gaya di satu sudut terlebih dahulu.

Orang ini telah melakukan hal yang persis sama, sebagian besar sudut hilang, tetapi CPU secara ajaib bekerja dengan baik, meskipun pada kinerja memori yang jauh berkurang. Pojok hanya berisi L2 cache, jadi dengan bagian itu hilang, protokol caching entah bagaimana bekerja di sekitar mati sekarang sangat rusak. Itu mungkin melaporkan kesalahan cache untuk semua pertanyaan di bagian itu, jadi CPU dikurangi menjadi hanya cache L1 (atau hanya bagian dari L2), jadi itu jauh lebih lambat di sebagian besar tes, namun memiliki kinerja yang hampir sama pada loop ketat.

Dalam garis pemikiran yang sama, dapat dibuat bahwa jika ALU rusak dan mampu memberi sinyal kembali entah bagaimana ia menolak bekerja, CPU mungkin dapat mundur pada ALU lain. Apakah ini dilakukan oleh produsen CPU tidak diketahui (dan saya ragu), tetapi contoh cache (dari 15 tahun yang lalu) menunjukkan bahwa itu pasti bisa dilakukan.

Anrieff
sumber
Ini tentu sangat mengesankan, dan bahkan tampaknya memang semacam proses dinamis, karena sistem mendeteksi bagian chip yang rusak dengan sendirinya. Ketika mengajukan pertanyaan, saya memiliki lebih banyak deteksi oleh sistem pengujian sesuai jalur produksi. Tetapi kisah ini jelas menarik;)
jusaca