Seperti yang kita ketahui CPU adalah miliaran transistor pada satu thumbnail, bagaimana jika salah satu transistor rusak?
Apakah CPU memiliki mekanisme pemulihan otomatis?
transistors
cpu
cpuer
sumber
sumber
Jawaban:
Sederhana saja, kami mengujinya sebelum menjualnya dan membuang yang buruk.
Ada banyak cara untuk melakukan ini - orang yang berbeda melakukan hal yang berbeda, sering menggunakan kombinasi dari:
beberapa tes cepat untuk memastikan mereka berjalan cukup cepat.
tes lain melibatkan mode yang mengubah beberapa atau semua flipflops dalam chip menjadi register pergeseran seri raksasa, kami mencatat data yang diketahui ke dalam rantai itu, kemudian menjalankan chip untuk satu jam dan kemudian memindai hasil baru kembali dan memeriksa apakah mereka cocok hasil prediksi kami - alat uji otomatis menghasilkan set minimum "pindai vektor" yang akan menguji setiap gerbang acak atau transistor pada chip - vektor lain melakukan tes khusus blok ram,
yang lain menguji bahwa kabel eksternal semuanya terikat dengan benar
kami memastikan itu tidak menarik arus yang tidak sehat
Menguji waktu membutuhkan biaya, kami terkadang melakukan pengujian sederhana untuk chip mati sebelum dikemas untuk membuang yang buruk dan kemudian melakukan pengujian lagi setelah pengemasan selesai
sumber
Untuk sedikit memperluas apa yang dikatakan orang lain: Ada validasi dan setelah itu ada klasifikasi chip.
Transistor dalam CPU cenderung menunjukkan masalah mereka pada frekuensi yang lebih tinggi, jadi itu umum untuk membuat satu CPU dan kemudian memasarkannya sebagai beberapa produk yang berbeda. CPU yang lebih murah sebenarnya adalah versi rusak dari CPU yang mahal. Pilihan lain adalah menonaktifkan bagian-bagian tertentu dari CPU. Sebagai contoh, AMD membuat prosesor dengan inti BArton. Itu juga menjual prosesor dengan inti Thorton. Thorton bukan inti baru. Sebaliknya, setengah dari cache L2 rusak dan dinonaktifkan. Dengan cara ini, AMD membuat beberapa pemulihan pada CPU yang seharusnya terbuang sia-sia.
Hal yang sama terjadi dengan 3 prosesor inti AMD. Mereka awalnya 4 prosesor inti, tetapi salah satu inti bertekad rusak, sehingga dinonaktifkan.
sumber
Jawaban atas pertanyaan Anda adalah, "Tidak." Saat ini tidak ada metode pemulihan otomatis, untuk kegagalan perangkat keras.
Produsen merekayasa proses mereka untuk mendapatkan hasil (dolar) terbaik dari wafer mereka. Dengan mengecilkan transistor, mereka dapat memasukkan lebih banyak fungsi ke area yang lebih sedikit. Ini dapat dianggap sebagai lebih banyak chip (dari fungsi yang sama) per wafer. Saat ukuran chip menyusut, Anda bisa mendapatkan lebih banyak dari wafer, tetapi saat menyusut, lebih banyak yang rusak. Manufaktur menerima ini, dan terus mendorong amplop teknologi untuk mengecilkan chip. Hal yang memberitahu mereka bahwa mereka berada di tepi amplop adalah keripik yang buruk.
Jika perusahaan dapat mengecilkan ukuran fitur hingga 70% dari ukuran fitur lama, mereka bisa mendapatkan sekitar 2 kali jumlah chip pada wafer. Jika hasil mereka pada proses lama adalah 95% (katakanlah, 95 chip chip baik dari 100 pada wafer) dan hasil mereka pada proses baru adalah 75% (150 chip baik dari 200 pada wafer), mereka menghasilkan uang dari proses baru.
sumber
Pada node kecil, setiap "transistor" adalah 2 gerbang kecuali Anda memiliki memori, seperti SRAM. Jika salah satu tidak berfungsi, Anda hanya memiliki driver lambat. Untuk SRAM, jika tidak lulus, Anda hanya "meniup" baris. Jika kedua FET pada transistor gagal, Anda akan memiliki sepotong pasir yang sangat mahal, tetapi saya pribadi tidak pernah mengalami hal itu. FinFET modern sangat kecil, ada banyak masalah produksi (terutama kerepotan) karena sifat litografi dan probabilitas. Anda akan menemukan bahwa hal pertama yang keluar pada proses baru adalah FPGA karena Anda bisa "meniup" sel-sel buruk dan mengubah grafik perutean. Saya tidak bisa memberi Anda angka, tetapi Anda bisa menebak dengan bagaimana dunia x86 melakukan binning, hal-hal jarang berjalan dengan sempurna.
Berikut ilustrasi tata letak sel XOR:
Bilah hijau kiri / kanan adalah sirip, dan merah adalah poli. Blues adalah logam berwarna di level 1.
CPU komersial tidak memiliki mekanisme pemulihan otomatis, tetapi hal-hal yang beredar di dunia akademis dan CPU aplikasi khusus. Saya telah membuat beberapa komponen khusus yang menggunakan arsitektur asinkron untuk menyelesaikan masalah jam yang timbul karena gerbang yang buruk melalui penghancuran oksida lubang sebagai pembawa panas di mana Anda hanya mendapatkan satu transistor yang sangat lambat.
sumber
Rupanya waktu telah berubah. Banyak dari jawaban lima tahun dalam pertanyaan ini tidak lagi mencerminkan keadaan seni dan beberapa tidak akurat saat itu.
Transistor dan perangkat lain pada silikon cukup stabil setelah pembuatan, asalkan IC tidak terlalu panas.
Berikut adalah hal-hal yang sekarang dilakukan dalam proses pembuatan IC modern untuk meminimalkan cacat:
Kesalahan pemrograman dalam spesifikasi formal prosesor lebih mungkin daripada kegagalan transistor tertentu.
Sementara CPU umum tidak memiliki kemampuan pemulihan autor apa pun, ada juga yang bekerja pada CPU self-reset sebagai langkah balasan untuk sinar kosmik. Sinar kosmik dapat menyimpan energi yang cukup dalam CPU atau RAM untuk menyebabkan bit-flips.
Seperti yang ditunjukkan dalam komentar, sistem misi kritis mengandalkan banyak CPU untuk verifikasi untuk waktu yang lama. Pesawat ulang-alik, pada tahun 1976 , sebagai salah satu contoh, menggunakan lima komputer, empat di antaranya menjalankan program yang sama dan "memberikan suara" pada semua keputusan kontrol penerbangan untuk memastikan keamanan.
sumber
Kebanyakan transistor prosesor modern adalah FET. Ini memiliki keuntungan mendapatkan resistansi sumber / drain ketika mulai kelebihan beban. Ini adalah salah satu faktor yang memungkinkan MOSFET daya tinggi dibuat dengan meletakkan banyak secara paralel. Beban secara otomatis didistribusikan. Itu mungkin merupakan faktor untuk membantu mendistribusikan masalah. Tapi saya pikir ini benar-benar lebih sederhana dari itu.
Seperti sebagian besar komponen elektronik, jika Anda mengendarainya dalam spec, mereka akan bertahan cukup lama. Ketika mikroprosesor dibuat, ada dua faktor untuk biaya. Hanya ruang pada silikon dan, karena kompleksitas, hasil yang sebenarnya. Tidak semua chip berfungsi setelah produksi. Namun, setelah dibuat dan melewati validasi, Anda tahu transistor itu baik. Jika didorong dalam spec, kemungkinan mereka akan tetap bagus.
sumber
Pernahkah Anda bertanya-tanya mengapa chip yang sama terkadang dijual dengan kecepatan yang berbeda? Dan pernahkah Anda memperhatikan bahwa kadang-kadang arsitektur chip GPU yang sama dijual dengan jumlah unit internal yang berbeda?
Tidak ada cara untuk memperbaiki cacat perangkat keras pada tingkat silikon, tetapi seiring waktu desainer telah belajar untuk berurusan dengan masalah peningkatan hasil . Tanpa pandangan jauh ke depan, hasil panen semata-mata tergantung pada kualitas manufaktur. Namun, jika Anda pintar, Anda dapat memulihkan beberapa chip buruk.
Sebagai contoh, katakanlah Anda memiliki desain chip 18-inti, yang berfungsi lebih atau kurang secara independen. Selama pengujian, Anda mengurutkan chip yang sempurna dan melepaskannya sebagai model A18. Kebanyakan chip yang gagal hanya memiliki satu kesalahan, sehingga mereka akan berfungsi dengan baik selama inti yang rusak dinonaktifkan. Anda menjual ini sebagai model A17 dengan harga sedikit lebih rendah, dan mereka yang memiliki dua core buruk dijual sebagai model A16 dengan harga yang lebih rendah.
Hal yang sama dapat diterapkan pada peringkat kecepatan chip. Chip yang diproduksi dengan sempurna akan dapat berjalan pada kecepatan di luar spesifikasi desain, tetapi chip dengan masalah mungkin tidak. Ini dijual dengan spesifikasi kecepatan rendah.
Metode ini akan secara dramatis meningkatkan hasil keseluruhan dan karenanya cukup umum dilihat. PlayStation 3 misalnya memiliki 8 unit SPE dalam perangkat keras, tetapi satu selalu dinonaktifkan untuk memperhitungkan masalah hasil.
sumber
Tidak seperti yang dijelaskan di atas. Namun cache mereka, terutama L2 dan L3, dapat memiliki RAM tambahan di dalamnya. Ketika bagian tersebut diuji di pabrik, blok RAM yang buruk dapat dihapus dan blok RAM tambahan digunakan.
sumber
Secara umum tidak, Anda menutupi transistor yang buruk melalui layar chip, dan Anda mengharapkan persentase kerugian yang relatif kecil setelah itu. Bisnis chip telah ada selama beberapa dekade, mereka memiliki banyak trik untuk mengelola ini (dan ya, kadang-kadang salah satu triknya adalah membiarkan bagian yang buruk keluar dan menggantinya secara gratis atau membiarkan pelanggan tidak bahagia).
Untuk lingkungan yang dikeraskan dengan radiasi (ruang) Anda kemungkinan akan melakukan tiga kali lipat, setiap "bit" sebenarnya memiliki tiga bit yang memilih untuk membuatnya. hanya membutuhkan dua pertiga suara untuk menentukan pengaturan bit. jadi transistor di sepertiga lainnya bisa memburuk dan akan dengan dosis total pada akhirnya. tetapi perhatian utama adalah gangguan acara tunggal. Chip dan sistem tersebut dirancang untuk lingkungan ini dari atas ke bawah, silikon, perangkat keras, perangkat lunak, dll. Dan mereka menggunakan teknologi yang sudah lama dicoba dan benar, tidak canggih, sehingga jumlah dan ukuran transistor dari tahun-tahun yang lalu.
COTS diperkirakan akan tersendat dan gagal dari waktu ke waktu.
sumber
Ini mungkin tampak seperti keajaiban tetapi ada sejumlah mekanisme yang digunakan untuk mengurangi jumlah kegagalan transistor. Namun, tergantung pada jenis kegagalan yang dialami oleh transistor dan di mana, CPU mungkin atau mungkin masih tidak dapat digunakan kadang-kadang dalam kondisi tertentu.
Saat ini, seringkali tidak ada mekanisme pemulihan otomatis yang terpasang, tetapi ada banyak penelitian mengenai komputasi yang dapat dikonfigurasi ulang, redundansi, dan teknik lain untuk meminimalkan masalah ini.
sumber