Ada penelitian kontemporer substansial tentang Bayesian Optimization (1) untuk menyetel hiperparameter ML. Motivasi mengemudi di sini adalah bahwa jumlah minimal titik data diperlukan untuk membuat pilihan berdasarkan informasi tentang poin apa yang layak untuk dicoba (panggilan fungsi obyektif itu mahal, sehingga membuat lebih sedikit lebih baik) karena melatih model intensif waktu - beberapa sederhana Masalah besar-SVM yang telah saya kerjakan membutuhkan waktu antara menit dan jam untuk diselesaikan.
Di sisi lain, Optunity adalah implementasi kawanan partikel untuk mengatasi tugas yang sama. Saya tidak terlalu akrab dengan PSO, tetapi sepertinya itu harus kurang efisien dalam arti membutuhkan lebih banyak poin uji coba, dan karenanya evaluasi fungsi tujuan, untuk menilai permukaan hyperparameter.
Apakah saya melewatkan detail kunci yang membuat PSO lebih disukai daripada BO dalam konteks pembelajaran mesin? Atau apakah pilihan antara keduanya selalu inheren kontekstual untuk tugas tuning hyperparameter?
(1) Shahriari et al, "Membawa Manusia dari Lingkaran: Tinjauan Bayesian Optimizaiton."
sumber
Jawaban:
Sebagai pengembang utama Optunity saya akan menambahkan dua sen saya.
Kami telah melakukan tolok ukur yang luas membandingkan Optunity dengan pemecah Bayesian paling populer (misalnya, hyperopt, SMAC, bayesopt) pada masalah dunia nyata, dan hasilnya menunjukkan bahwa PSO sebenarnya tidak kurang efisien dalam banyak kasus praktis. Dalam benchmark kami, yang terdiri dari menyetel klasifikasi SVM pada berbagai dataset, Optunity sebenarnya lebih efisien daripada hyperopt dan SMAC, tetapi sedikit kurang efisien daripada BayesOpt. Saya ingin membagikan hasilnya di sini, tetapi saya akan menunggu sampai Optunity akhirnya diterbitkan di JMLR (sedang ditinjau lebih dari setahun sekarang, jadi jangan menahan nafas ...).
Seperti yang Anda tunjukkan, peningkatan efisiensi adalah titik penjualan yang umum digunakan untuk optimalisasi Bayesian, tetapi dalam praktiknya itu hanya menampung air jika asumsi dari model pengganti yang mendasarinya berlaku, yang jauh dari sepele. Dalam percobaan kami, pemecah PSO yang sangat sederhana dari Optunity sering bersaing dengan pendekatan Bayesian yang kompleks dalam hal jumlah evaluasi fungsi. Pemecah Bayesian bekerja dengan sangat baik ketika disediakan dengan prior yang baik, tetapi dengan yang tidak informatif sebelumnya hampir tidak ada manfaat struktural atas metode metaheuristik seperti PSO dalam hal efisiensi.
Nilai jual besar untuk PSO adalah kenyataan bahwa hal itu paralel paralel. Optimalisasi Bayesian seringkali sulit diparalelkan, karena sifatnya yang berurutan (implementasi hyperopt menjadi satu-satunya pengecualian nyata). Diberi peluang untuk mendistribusikan, yang menjadi norma, Optunity dengan cepat memimpin dalam jam dinding untuk mendapatkan solusi yang baik.
Perbedaan utama lainnya antara Optunity dan kebanyakan perpustakaan optimisasi hyperparameter khusus lainnya adalah audiens target: Optunity memiliki antarmuka paling sederhana dan ditargetkan untuk para ahli pembelajaran non-mesin, sedangkan sebagian besar perpustakaan lainnya memerlukan beberapa pemahaman tentang optimasi Bayesian untuk digunakan secara efektif (yaitu, mereka adalah ditargetkan pada spesialis).
Alasan kami membuat perpustakaan adalah bahwa meskipun ada fakta metode optimisasi hyperparameter berdedikasi, mereka kurang diadopsi dalam praktik. Kebanyakan orang masih tidak menyetel sama sekali, melakukannya secara manual, atau melalui pendekatan naif seperti pencarian grid atau acak. Menurut pendapat kami, alasan utama untuk ini adalah kenyataan bahwa perpustakaan yang ada sebelum mengembangkan Optunity terlalu sulit untuk digunakan dalam hal instalasi, dokumentasi, API dan seringkali terbatas pada satu lingkungan saja.
sumber
Jawabannya tergantung pada masalah dan tidak dapat diberikan tanpa konteks tambahan. Biasanya, jawabannya adalah sebagai berikut. Bayesian Optimization lebih cocok untuk masalah dimensi rendah dengan anggaran komputasi hingga 10x-100x jumlah variabel. PSO bisa sangat efisien untuk anggaran yang jauh lebih besar tetapi tidak canggih di ceruknya.
sumber