Mengapa ML hanya menjadi layak setelah chip Nvidia tersedia?

11

Saya mendengarkan ceramah panel yang terdiri dari dua ilmuwan Cina berpengaruh: Wang Gang dan Yu Kai dan yang lainnya.

Ketika ditanya tentang hambatan terbesar pengembangan kecerdasan buatan dalam waktu dekat (3 hingga 5 tahun), Yu Kai, yang memiliki latar belakang di industri perangkat keras, mengatakan bahwa perangkat keras akan menjadi masalah penting dan kita harus membayar sebagian besar perhatian kami untuk itu. Dia memberi kami dua contoh:

  1. Dalam pengembangan awal komputer, kami membandingkan mesin kami dengan chip-nya;
  2. Kecerdasan buatan yang sangat populer tahun ini hampir tidak mungkin jika tidak diberdayakan oleh GPU Nvidia.

Algoritma fundamental sudah ada pada 1980-an dan 1990-an, tetapi kecerdasan buatan melewati 3 musim dingin AI dan tidak empiris sampai kita dapat melatih model dengan server mega yang didukung GPU.

Kemudian Dr. Wang mengomentari pendapatnya bahwa kita juga harus mengembangkan sistem perangkat lunak karena kita tidak dapat membangun mobil otomatis bahkan jika kita telah menggabungkan semua GPU dan perhitungan di dunia secara bersamaan.

Kemudian, seperti biasa, pikiran saya melayang dan saya mulai berpikir bahwa bagaimana jika mereka yang dapat mengoperasikan superkomputer pada 1980-an dan 1990-an memanfaatkan algoritma jaringan saraf yang ada dan melatih mereka dengan banyak data ilmiah? Beberapa orang pada waktu itu jelas dapat mencoba membangun sistem AI yang sedang kita bangun sekarang. Tetapi mengapa AI menjadi topik hangat dan menjadi empiris sampai beberapa dekade kemudian? Apakah ini hanya masalah perangkat keras, perangkat lunak, dan data?

Lerner Zhang
sumber
3
Pertanyaan ini mengandaikan bahwa AI hanya pembelajaran mesin, yang sebenarnya salah. Sudah ada selama 60+ tahun, dan hanya bidang pembelajaran yang sangat sempit / jaringan saraf yang dipercepat oleh perangkat keras yang saat ini tersedia. AI telah menjadi topik hangat beberapa kali, didorong kembali oleh telah terlalu banyak dihipnotis setiap kali.
Oliver Mason
@OliverMason Ya. Dalam konteks itu, kami mempersempit AI hanya untuk pembelajaran mesin dan pembelajaran mendalam.
Lerner Zhang
OK, saya mengubah judulnya.
Oliver Mason

Jawaban:

14

Ada banyak faktor untuk booming industri AI. Apa yang banyak orang lewatkan adalah boomingnya sebagian besar berada di bagian Machine Learning dari AI. Ini dapat dikaitkan dengan berbagai alasan sederhana bersama dengan perbandingan mereka selama masa sebelumnya:

  • Matematika : Matematika di balik algoritma ML cukup sederhana dan dikenal untuk waktu yang lama (apakah itu akan berhasil atau tidak tidak diketahui). Selama waktu sebelumnya itu tidak mungkin untuk mengimplementasikan algoritma yang membutuhkan angka angka yang tinggi, untuk dihitung pada sebuah chip, dalam jumlah waktu yang dapat diterima. Salah satu divisi operasi aritmatika utama angka masih membutuhkan banyak siklus dalam prosesor modern. Prosesor yang lebih lama jauh lebih lambat daripada prosesor modern (lebih dari 100x), hambatan ini membuatnya tidak mungkin untuk melatih model canggih pada prosesor kontemporer.
  • 10
  • Paralelisasi : Konsep paralelisasi operasi matriks bukanlah hal baru. Hanya ketika kami mulai melihat Deep Learning sebagai hanya seperangkat operasi matriks kami menyadari bahwa itu dapat dengan mudah diparalelkan pada GPU paralel masif, masih jika algoritma ML Anda tidak secara paralel paralel maka tidak masalah apakah Anda menggunakan CPU atau GPU ( misalnya RNN).
  • Data : Mungkin penyebab terbesar dalam booming ML. Internet telah memberikan peluang untuk mengumpulkan sejumlah besar data dari pengguna dan juga membuatnya tersedia bagi pihak yang berkepentingan. Karena algoritma ML hanya merupakan aproksimasi fungsi berdasarkan data, maka data adalah satu-satunya hal terpenting dalam algoritma ML. Semakin banyak data semakin baik kinerja model Anda.
  • Biaya : Biaya pelatihan model ML turun secara signifikan. Jadi menggunakan Komputer Super untuk melatih model mungkin baik-baik saja, tetapi apakah itu layak? Komputer super tidak seperti PC normal sangat membutuhkan sumber daya dalam hal pendinginan, ruang, dll. Artikel terbarutentang MIT Technology Review menunjukkan jejak karbon dari pelatihan model Deep Learning (cabang pembantu ML). Ini adalah indikator yang cukup baik mengapa tidak mungkin untuk melatih Supercomputer di masa sebelumnya (mengingat prosesor modern mengkonsumsi daya yang jauh lebih rendah dan memberikan kecepatan yang lebih tinggi). Meskipun, saya tidak yakin tetapi saya pikir superkomputer sebelumnya mengkhususkan diri dalam "paralel + komputasi presisi sangat tinggi" (diperlukan untuk cuaca, astronomi, aplikasi militer, dll) dan "bagian precison yang sangat tinggi" terlalu banyak dalam skenario Machine Learning.

Aspek penting lainnya adalah saat ini setiap orang memiliki akses ke komputer yang kuat. Dengan demikian, siapa pun dapat membangun model ML baru, melatih kembali model yang sudah ada, memodifikasi model, dll. Ini sangat tidak mungkin pada masa-masa sebelumnya,

Semua faktor ini telah menyebabkan lonjakan besar dalam minat pada ML dan telah menyebabkan ledakan yang kita lihat hari ini. Lihat juga pertanyaan ini tentang bagaimana kita bergerak melampaui prosesor digital.

Duta
sumber
2

GPU ideal untuk booming AI karena

  • Mereka memukul waktu yang tepat

AI telah diteliti untuk waktu yang lama. Hampir setengah abad. Namun, itu semua eksplorasi bagaimana algoritma bekerja dan terlihat. Ketika NV melihat bahwa AI akan menjadi arus utama, mereka melihat GPU mereka dan menyadari bahwa kekuatan pemrosesan parellel yang besar, dengan relatif mudah diprogramnya, sangat ideal untuk era yang akan datang. Banyak orang juga menyadarinya.

  • GPU adalah semacam akselerator tujuan umum

GPGPU adalah konsep menggunakan pemrosesan paralel GPU untuk tugas-tugas umum. Anda dapat mempercepat grafik, atau membuat algoritma Anda memanfaatkan 1000s core yang tersedia di GPU. Itu membuat target GPU luar biasa untuk semua jenis kasus penggunaan termasuk AI. Mengingat bahwa mereka sudah tersedia dan tidak terlalu sulit untuk diprogram, pilihan ideal untuk mempercepat algoritma AI.

Aleksandar Kostovic
sumber