Klasifikasi pembelajaran mesin apa yang paling bisa diparalelkan?

10

Klasifikasi pembelajaran mesin apa yang paling bisa diparalelkan? Jika Anda memiliki masalah klasifikasi yang sulit, waktu yang terbatas, tetapi LAN komputer yang layak untuk digunakan, klasifikasi apa yang akan Anda coba?

Secara tidak langsung kelihatannya bagi saya seperti beberapa pengklasifikasi standar yang saya tahu menumpuk sebagai berikut tetapi saya bisa benar-benar salah:

Hutan Acak - Sangat dapat diparalelkan selama setiap mesin dapat menyimpan semua data (yaitu tidak dapat membagi data pelatihan per se, tetapi sebaliknya dapat diparalelkan).

Meningkatkan -?

Dukungan Mesin Vektor - Tidak terlalu paralel.

Pohon keputusan - Dapat dibagi sebagian, tetapi tidak terlalu efisien.

John Robertson
sumber
Posting ini perlu diperbarui. Saat ini DNN adalah algoritma yang mendapat manfaat paling banyak dari komputasi paralel. dan meningkatkannya hampir tidak bisa diparalelkan.
TNM

Jawaban:

11

Telah ada upaya untuk memaralelkan sebagian besar pengklasifikasi terkenal, termasuk meningkatkan [ kertas ], SVM [ kertas ], dan bahkan pohon keputusan [ kertas ]. Tentu saja, dengan mengakui paralelisme, Anda terkadang kehilangan aspek lain, apakah itu penerapan algoritme, kompleksitas sampel, atau tersangka biasa lainnya.

Dari akhir teori, pertanyaannya lebih sulit karena ketika Anda berbicara tentang belajar, Anda harus memikirkan fungsi target. Sebagai contoh, kita bahkan tidak tahu pohon keputusan menjadi PAC-bisa dipelajari, jadi jika target (dan juga metode) adalah pohon keputusan, maka kita bahkan tidak bisa mempelajarinya (belum) tanpa memperkenalkan segi tambahan pada masalah. Meningkatkan mengatasi itu dengan mengasumsikan kondisi belajar yang lemah, SVM margin, dll. Saya pikir asumsi-asumsi itu dipindahkan ke kasus paralel untuk memberi Anda pembelajaran PAC.

Tapi seperti biasa, ada celah besar antara batas (dan dengan demikian menyangkut) teori dan praktik. Sebagai contoh, dalam praktiknya, itu penting apakah paralelisme lebih dari inti atau cluster. Salah satu algoritma yang dikembangkan terutama untuk penggunaan praktis dalam pengaturan data besar adalah VW , dan mulai mendukung paralelisme. Anda mungkin tertarik pada makalah dalam lokakarya NIPS 2010 tentang pembelajaran paralel praktis.

Lev Reyzin
sumber