Bagaimana CPU bisa stabil ketika mereka memiliki begitu banyak transistor?

10

Seperti yang kita ketahui CPU adalah miliaran transistor pada satu thumbnail, bagaimana jika salah satu transistor rusak?

Apakah CPU memiliki mekanisme pemulihan otomatis?

cpuer
sumber
6
Sebenarnya yang lebih besar saat ini mengandung miliaran transistor.
starblue
6
"Stabil" mungkin bukan kata yang tepat, karena itu lebih mengarah ke masalah seperti metastabilitas. Pilihan yang lebih baik untuk topik ini adalah kata-kata seperti 'bebas cacat' atau 'hasil'. Atau Anda bisa bertanya tentang stabilitas proses pembuatan, bukan chip yang dihasilkan.
Chris Stratton
2
@ ChrisStratton, saya pikir OP mungkin bertanya lebih banyak tentang keandalan daripada hasil.
The Photon
1
Jika salah satu transistor rusak, Anda membuang chip. Tidak ada redundansi (kecuali beberapa aplikasi spesifik) dan tidak ada opsi perbaikan.
Dmitry Grigoryev

Jawaban:

18

Sederhana saja, kami mengujinya sebelum menjualnya dan membuang yang buruk.

Ada banyak cara untuk melakukan ini - orang yang berbeda melakukan hal yang berbeda, sering menggunakan kombinasi dari:

  • beberapa tes cepat untuk memastikan mereka berjalan cukup cepat.

  • tes lain melibatkan mode yang mengubah beberapa atau semua flipflops dalam chip menjadi register pergeseran seri raksasa, kami mencatat data yang diketahui ke dalam rantai itu, kemudian menjalankan chip untuk satu jam dan kemudian memindai hasil baru kembali dan memeriksa apakah mereka cocok hasil prediksi kami - alat uji otomatis menghasilkan set minimum "pindai vektor" yang akan menguji setiap gerbang acak atau transistor pada chip - vektor lain melakukan tes khusus blok ram,

  • yang lain menguji bahwa kabel eksternal semuanya terikat dengan benar

  • kami memastikan itu tidak menarik arus yang tidak sehat

Menguji waktu membutuhkan biaya, kami terkadang melakukan pengujian sederhana untuk chip mati sebelum dikemas untuk membuang yang buruk dan kemudian melakukan pengujian lagi setelah pengemasan selesai

Taniwha
sumber
1
"Sederhana saja, kita mengujinya sebelum menjualnya dan membuang yang buruk." Jika itu akan menjadi satu-satunya sistem kualitas Anda kemungkinan akan menghasilkan 0,00000000001% dengan 1 miliar perangkat transistor
Federico Russo
2
Sesederhana itu; triknya adalah dalam jumlah simulasi dan pengecekan aturan yang sangat besar sebelumnya untuk memastikan bahwa hasil Anda dapat diterima. Jarang ada redundansi dalam logika CPU itu sendiri; terkadang Anda mendapatkan sedikit redundansi pada RAM on-chip.
pjc50
Jika desainnya benar, kegagalan individu Anda berasal dari cacat material, kontaminasi, kesalahan proses, dll. Meskipun hanya ada beberapa ukuran wafer yang digunakan, IC yang lebih besar lebih mahal daripada ukuran proporsionalnya, karena kemungkinan cacat meningkat dengan daerah. Dalam beberapa kasus, Anda dapat memiliki chip dengan unit yang lebih fungsional daripada yang kadang dijual bersama, jadi mungkin masih dapat dipasarkan jika ada yang buruk, tetapi itu terbatas. Terkadang Anda dapat membeli FPGA dengan diskon yang hanya diuji untuk berfungsi seperti yang digunakan oleh file konfigurasi tertentu, daripada bekerja dengan yang sewenang-wenang.
Chris Stratton
2
Saya pikir Anda lupa menyebutkan produsen seperti prosesor penjualan AMD dengan core buruk sebagai model yang berbeda dengan inti buruk terkunci. Itu semacam redundansi, atau pemasaran yang cerdas mungkin.
akaltar
Jika ada yang bertanya-tanya bagaimana bagian pasar abu-abu dipasok, mereka seharusnya tidak bertanya-tanya lagi. Saya telah bekerja di ujung perangkat lunak sistem chip hebat, dan pengujian otomatis seperti dijelaskan di sini adalah sebagian besar dari waktu dan biaya uang untuk pabrik.
12

Untuk sedikit memperluas apa yang dikatakan orang lain: Ada validasi dan setelah itu ada klasifikasi chip.

Transistor dalam CPU cenderung menunjukkan masalah mereka pada frekuensi yang lebih tinggi, jadi itu umum untuk membuat satu CPU dan kemudian memasarkannya sebagai beberapa produk yang berbeda. CPU yang lebih murah sebenarnya adalah versi rusak dari CPU yang mahal. Pilihan lain adalah menonaktifkan bagian-bagian tertentu dari CPU. Sebagai contoh, AMD membuat prosesor dengan inti BArton. Itu juga menjual prosesor dengan inti Thorton. Thorton bukan inti baru. Sebaliknya, setengah dari cache L2 rusak dan dinonaktifkan. Dengan cara ini, AMD membuat beberapa pemulihan pada CPU yang seharusnya terbuang sia-sia.

Hal yang sama terjadi dengan 3 prosesor inti AMD. Mereka awalnya 4 prosesor inti, tetapi salah satu inti bertekad rusak, sehingga dinonaktifkan.

AndrejaKo
sumber
2
tidak jarang membuat desain chip dengan fitur yang dapat Anda nonaktifkan dengan meniup sekering. Ekonomi sederhana dari hasil chip, jika kita dapat menyelamatkan semua atau sebagian dari chip dengan menjalankannya lebih lambat atau dengan menonaktifkan fitur yang gagal dalam pengujian, kita dapat memulihkan sebagian biaya bagian itu daripada membuang seluruh bagian. Anda dapat kembali ke intel 386 SX dan DX sebagai contoh juga. dan hampir setiap CPU dinilai kecepatannya. yang lebih lambat adalah bagian yang gagal pada kecepatan lebih cepat.
old_timer
2
Tidak, bukan 386SX / 386DX. Chip ini memiliki antarmuka bus yang sangat berbeda. Anda tidak hanya menonaktifkan bagian dari 386DX untuk mendapatkan 386SX. Apa yang Anda katakan benar untuk 486DX / 486SX, yang terakhir menonaktifkan FPU.
Michael Karcher
6

Jawaban atas pertanyaan Anda adalah, "Tidak." Saat ini tidak ada metode pemulihan otomatis, untuk kegagalan perangkat keras.

Produsen merekayasa proses mereka untuk mendapatkan hasil (dolar) terbaik dari wafer mereka. Dengan mengecilkan transistor, mereka dapat memasukkan lebih banyak fungsi ke area yang lebih sedikit. Ini dapat dianggap sebagai lebih banyak chip (dari fungsi yang sama) per wafer. Saat ukuran chip menyusut, Anda bisa mendapatkan lebih banyak dari wafer, tetapi saat menyusut, lebih banyak yang rusak. Manufaktur menerima ini, dan terus mendorong amplop teknologi untuk mengecilkan chip. Hal yang memberitahu mereka bahwa mereka berada di tepi amplop adalah keripik yang buruk.

Jika perusahaan dapat mengecilkan ukuran fitur hingga 70% dari ukuran fitur lama, mereka bisa mendapatkan sekitar 2 kali jumlah chip pada wafer. Jika hasil mereka pada proses lama adalah 95% (katakanlah, 95 chip chip baik dari 100 pada wafer) dan hasil mereka pada proses baru adalah 75% (150 chip baik dari 200 pada wafer), mereka menghasilkan uang dari proses baru.

Vintage
sumber
5
Untuk beberapa jenis chip seperti memori flash NAND, produsen secara rutin mendorong amplop melampaui titik di mana chip zero-defect akan menjadi norma, tetapi sebagian besar kegagalan akan memiliki karakteristik yang agak dapat diprediksi, dan perangkat yang menggunakan chip akan diharapkan untuk bekerja di sekitar mereka.
supercat
3

Pada node kecil, setiap "transistor" adalah 2 gerbang kecuali Anda memiliki memori, seperti SRAM. Jika salah satu tidak berfungsi, Anda hanya memiliki driver lambat. Untuk SRAM, jika tidak lulus, Anda hanya "meniup" baris. Jika kedua FET pada transistor gagal, Anda akan memiliki sepotong pasir yang sangat mahal, tetapi saya pribadi tidak pernah mengalami hal itu. FinFET modern sangat kecil, ada banyak masalah produksi (terutama kerepotan) karena sifat litografi dan probabilitas. Anda akan menemukan bahwa hal pertama yang keluar pada proses baru adalah FPGA karena Anda bisa "meniup" sel-sel buruk dan mengubah grafik perutean. Saya tidak bisa memberi Anda angka, tetapi Anda bisa menebak dengan bagaimana dunia x86 melakukan binning, hal-hal jarang berjalan dengan sempurna.

Berikut ilustrasi tata letak sel XOR: XOR

Bilah hijau kiri / kanan adalah sirip, dan merah adalah poli. Blues adalah logam berwarna di level 1.

CPU komersial tidak memiliki mekanisme pemulihan otomatis, tetapi hal-hal yang beredar di dunia akademis dan CPU aplikasi khusus. Saya telah membuat beberapa komponen khusus yang menggunakan arsitektur asinkron untuk menyelesaikan masalah jam yang timbul karena gerbang yang buruk melalui penghancuran oksida lubang sebagai pembawa panas di mana Anda hanya mendapatkan satu transistor yang sangat lambat.

b degnan
sumber
3

Rupanya waktu telah berubah. Banyak dari jawaban lima tahun dalam pertanyaan ini tidak lagi mencerminkan keadaan seni dan beberapa tidak akurat saat itu.

Transistor dan perangkat lain pada silikon cukup stabil setelah pembuatan, asalkan IC tidak terlalu panas.

Berikut adalah hal-hal yang sekarang dilakukan dalam proses pembuatan IC modern untuk meminimalkan cacat:

  • IC diuji secara luas, baik pada tingkat validasi desain dan verifikasi, dan tes spesimen individu. Makalah ini menjelaskan beberapa prosedur pengujian untuk Pentium 4.
  • keseluruhan desain IC sekarang terlalu kompleks untuk diverifikasi sepenuhnya
  • IC memiliki mikrokode yang dapat diprogram, yang memungkinkan tingkat kompatibilitas ulang program yang terbatas jika ditemukan kerusakan setelah pembuatan
  • IC modern mengandung lapisan silikon berlebih, memungkinkan cacat yang ditemukan selama pembuatan harus diperbaiki
  • banyak CPU memiliki modul perangkat keras yang berlebihan, apakah ini inti CPU, memori cache atau IP lainnya; jika tidak semua unit berfungsi, beberapa dapat dinonaktifkan dan "dibuang" sebagai bagian dengan biaya lebih rendah. Salah satu contohnya adalah IC multi-core PS4 termasuk satu inti redundan yang dinonaktifkan untuk mencapai hasil yang lebih tinggi.
  • beberapa CPU akan melakukan tetapi tidak pada kecepatan tinggi; ini dapat dijual dengan kecepatan lebih rendah, CPU dengan biaya lebih rendah
  • banyak CPU dan RAM menggunakan memori coding koreksi kesalahan (ECC) atau melakukan koreksi kesalahan validasi pesan pada berbagai tahap transfer data untuk memastikan integritas
  • kadang-kadang prosesor akan gagal dengan cara yang menyebabkan sistem crash tetapi tidak mencegah sistem bekerja lagi jika me-reboot (CMOS latchup)

Kesalahan pemrograman dalam spesifikasi formal prosesor lebih mungkin daripada kegagalan transistor tertentu.

Sementara CPU umum tidak memiliki kemampuan pemulihan autor apa pun, ada juga yang bekerja pada CPU self-reset sebagai langkah balasan untuk sinar kosmik. Sinar kosmik dapat menyimpan energi yang cukup dalam CPU atau RAM untuk menyebabkan bit-flips.

Seperti yang ditunjukkan dalam komentar, sistem misi kritis mengandalkan banyak CPU untuk verifikasi untuk waktu yang lama. Pesawat ulang-alik, pada tahun 1976 , sebagai salah satu contoh, menggunakan lima komputer, empat di antaranya menjalankan program yang sama dan "memberikan suara" pada semua keputusan kontrol penerbangan untuk memastikan keamanan.

jbarlow
sumber
ECC dan deteksi kesalahan telah digunakan selama beberapa waktu (untuk memori dan komunikasi, untuk fungsi aritmatika dan logika yang serupa, beberapa sistem kelas atas telah memiliki deteksi kesalahan selama bertahun-tahun). Demikian pula, eksekusi berlebihan (spasial atau temporal) telah digunakan untuk mendeteksi kesalahan untuk beberapa waktu dalam sistem di mana biaya dalam perangkat keras / waktu eksekusi tampaknya dibenarkan.
Paul A. Clayton
@ PaulA.Clayton jika Anda ingin membuat posting tentang Itanium dan fitur Xeon RAS, saya pasti akan senang memilih itu.
Oleksandr R.
2

Kebanyakan transistor prosesor modern adalah FET. Ini memiliki keuntungan mendapatkan resistansi sumber / drain ketika mulai kelebihan beban. Ini adalah salah satu faktor yang memungkinkan MOSFET daya tinggi dibuat dengan meletakkan banyak secara paralel. Beban secara otomatis didistribusikan. Itu mungkin merupakan faktor untuk membantu mendistribusikan masalah. Tapi saya pikir ini benar-benar lebih sederhana dari itu.

Seperti sebagian besar komponen elektronik, jika Anda mengendarainya dalam spec, mereka akan bertahan cukup lama. Ketika mikroprosesor dibuat, ada dua faktor untuk biaya. Hanya ruang pada silikon dan, karena kompleksitas, hasil yang sebenarnya. Tidak semua chip berfungsi setelah produksi. Namun, setelah dibuat dan melewati validasi, Anda tahu transistor itu baik. Jika didorong dalam spec, kemungkinan mereka akan tetap bagus.

Joe
sumber
2

Pernahkah Anda bertanya-tanya mengapa chip yang sama terkadang dijual dengan kecepatan yang berbeda? Dan pernahkah Anda memperhatikan bahwa kadang-kadang arsitektur chip GPU yang sama dijual dengan jumlah unit internal yang berbeda?

Tidak ada cara untuk memperbaiki cacat perangkat keras pada tingkat silikon, tetapi seiring waktu desainer telah belajar untuk berurusan dengan masalah peningkatan hasil . Tanpa pandangan jauh ke depan, hasil panen semata-mata tergantung pada kualitas manufaktur. Namun, jika Anda pintar, Anda dapat memulihkan beberapa chip buruk.

Sebagai contoh, katakanlah Anda memiliki desain chip 18-inti, yang berfungsi lebih atau kurang secara independen. Selama pengujian, Anda mengurutkan chip yang sempurna dan melepaskannya sebagai model A18. Kebanyakan chip yang gagal hanya memiliki satu kesalahan, sehingga mereka akan berfungsi dengan baik selama inti yang rusak dinonaktifkan. Anda menjual ini sebagai model A17 dengan harga sedikit lebih rendah, dan mereka yang memiliki dua core buruk dijual sebagai model A16 dengan harga yang lebih rendah.

Hal yang sama dapat diterapkan pada peringkat kecepatan chip. Chip yang diproduksi dengan sempurna akan dapat berjalan pada kecepatan di luar spesifikasi desain, tetapi chip dengan masalah mungkin tidak. Ini dijual dengan spesifikasi kecepatan rendah.

Metode ini akan secara dramatis meningkatkan hasil keseluruhan dan karenanya cukup umum dilihat. PlayStation 3 misalnya memiliki 8 unit SPE dalam perangkat keras, tetapi satu selalu dinonaktifkan untuk memperhitungkan masalah hasil.

Pål-Kristian Engstad
sumber
1

Apakah CPU memiliki mekanisme pemulihan otomatis?

Tidak seperti yang dijelaskan di atas. Namun cache mereka, terutama L2 dan L3, dapat memiliki RAM tambahan di dalamnya. Ketika bagian tersebut diuji di pabrik, blok RAM yang buruk dapat dihapus dan blok RAM tambahan digunakan.

Brian Carlton
sumber
1

Secara umum tidak, Anda menutupi transistor yang buruk melalui layar chip, dan Anda mengharapkan persentase kerugian yang relatif kecil setelah itu. Bisnis chip telah ada selama beberapa dekade, mereka memiliki banyak trik untuk mengelola ini (dan ya, kadang-kadang salah satu triknya adalah membiarkan bagian yang buruk keluar dan menggantinya secara gratis atau membiarkan pelanggan tidak bahagia).

Untuk lingkungan yang dikeraskan dengan radiasi (ruang) Anda kemungkinan akan melakukan tiga kali lipat, setiap "bit" sebenarnya memiliki tiga bit yang memilih untuk membuatnya. hanya membutuhkan dua pertiga suara untuk menentukan pengaturan bit. jadi transistor di sepertiga lainnya bisa memburuk dan akan dengan dosis total pada akhirnya. tetapi perhatian utama adalah gangguan acara tunggal. Chip dan sistem tersebut dirancang untuk lingkungan ini dari atas ke bawah, silikon, perangkat keras, perangkat lunak, dll. Dan mereka menggunakan teknologi yang sudah lama dicoba dan benar, tidak canggih, sehingga jumlah dan ukuran transistor dari tahun-tahun yang lalu.

COTS diperkirakan akan tersendat dan gagal dari waktu ke waktu.

old_timer
sumber
-1

Ini mungkin tampak seperti keajaiban tetapi ada sejumlah mekanisme yang digunakan untuk mengurangi jumlah kegagalan transistor. Namun, tergantung pada jenis kegagalan yang dialami oleh transistor dan di mana, CPU mungkin atau mungkin masih tidak dapat digunakan kadang-kadang dalam kondisi tertentu.

Saat ini, seringkali tidak ada mekanisme pemulihan otomatis yang terpasang, tetapi ada banyak penelitian mengenai komputasi yang dapat dikonfigurasi ulang, redundansi, dan teknik lain untuk meminimalkan masalah ini.

sybreon
sumber