Saat ini saya sedang mencari Bengio dan Bergsta's Random Search untuk Hyper-Parameter Optimization [1] di mana penulis mengklaim pencarian acak lebih efisien daripada pencarian grid dalam mencapai sekitar kinerja yang sama.
Pertanyaan saya adalah: Apakah orang-orang di sini setuju dengan klaim itu? Dalam pekerjaan saya, saya telah menggunakan pencarian kotak sebagian besar karena kurangnya alat yang tersedia untuk melakukan pencarian acak dengan mudah.
Apa pengalaman orang yang menggunakan pencarian grid vs. acak?
our Optunity
seharusnya); seperti yang dikatakan oleh bantuan tentang perilaku, "jika beberapa ... kebetulan tentang produk atau situs web Anda, tidak apa-apa. Namun, Anda harus mengungkapkan afiliasi Anda"Jawaban:
Pencarian acak memiliki probabilitas 95% untuk menemukan kombinasi parameter dalam optima 5% dengan hanya 60 iterasi. Juga dibandingkan dengan metode lain itu tidak menghalangi optima lokal.
Lihat posting blog hebat ini di Dato oleh Alice Zheng, khususnya bagian algoritma penyetelan Hyperparameter .
Anda dapat meningkatkan peluang itu dengan jumlah uji coba yang lebih tinggi.
Singkatnya, jika Anda memiliki terlalu banyak parameter yang perlu dicari, pencarian kotak mungkin menjadi tidak mungkin. Saat itulah saya mencoba pencarian acak.
sumber
Lihat kembali gambar dari kertas (Gambar 1). Katakanlah Anda memiliki dua parameter, dengan pencarian grid 3x3 Anda hanya memeriksa tiga nilai parameter yang berbeda dari masing-masing parameter (tiga baris dan tiga kolom pada plot di sebelah kiri), sedangkan dengan pencarian acak Anda memeriksa sembilan (!) Nilai parameter yang berbeda dari masing-masing parameter (sembilan baris berbeda dan sembilan kolom berbeda).
Jelas, pencarian acak, secara kebetulan, mungkin tidak mewakili untuk semua rentang parameter, tetapi seiring dengan bertambahnya ukuran sampel, peluang ini semakin kecil.
sumber
Jika Anda dapat menulis fungsi untuk pencarian di grid, mungkin lebih mudah menulis fungsi untuk melakukan pencarian acak karena Anda tidak harus menentukan sebelumnya dan menyimpan grid di depan.
Selain itu, metode seperti LIPO, optimisasi kawanan partikel, dan optimisasi Bayesian membuat pilihan cerdas tentang hiperparameter mana yang cenderung lebih baik, jadi jika Anda perlu menjaga agar jumlah model sesuai dengan minimum absolut (katakanlah, karena mahal agar sesuai dengan model), alat ini adalah opsi yang menjanjikan. Mereka juga pengoptimal global, sehingga mereka memiliki probabilitas tinggi untuk menemukan maksimum global. Beberapa fungsi akuisisi metode BO memiliki batas penyesalan yang dapat dibuktikan, yang membuatnya lebih menarik.
Informasi lebih lanjut dapat ditemukan dalam pertanyaan-pertanyaan ini:
Apa sajakah kelemahan dari optimasi parameter hyper bayesian?
Optimalisasi ketika Fungsi Biaya Lambat untuk Mengevaluasi
sumber
Secara default, pencarian acak dan pencarian grid adalah algoritma yang mengerikan kecuali salah satu dari berikut ini berlaku.
Kebanyakan orang mengklaim bahwa pencarian acak lebih baik daripada pencarian grid. Namun, perhatikan bahwa ketika jumlah total evaluasi fungsi sudah ditentukan sebelumnya, pencarian kisi-kisi akan mengarah pada cakupan yang baik dari ruang pencarian yang tidak lebih buruk daripada pencarian acak dengan anggaran yang sama dan perbedaan antara keduanya dapat diabaikan jika ada. Jika Anda mulai menambahkan beberapa asumsi, misalnya, bahwa masalah Anda dapat dipisahkan atau hampir dapat dipisahkan, maka Anda akan menemukan argumen untuk mendukung pencarian kisi. Secara keseluruhan, keduanya relatif buruk kecuali dalam beberapa kasus. Dengan demikian, tidak perlu untuk membedakan di antara mereka kecuali beberapa asumsi tambahan tentang masalah dipertimbangkan.
sumber
Menemukan tempat dalam 95% dari maksimal dalam topografi 2D dengan hanya satu maxima membutuhkan 100% / 25 = 25%, 6,25%, 1,5625%, atau 16 pengamatan. Selama empat pengamatan pertama dengan benar menentukan kuadran mana maxima (ekstrema) berada. Topografi 1D membutuhkan 100/2 = 50, 25, 12.5, 6.25, 3.125 atau 5 * 2. Saya kira orang yang mencari beberapa maxima lokal farflung menggunakan pencarian kotak inital besar kemudian regresi atau metode prediksi lainnya. Kisi 60 pengamatan harus memiliki satu pengamatan dalam 100/60 = 1,66% dari ekstrema. Global Optimization Wikipedia Saya masih berpikir selalu ada metode yang lebih baik daripada keacakan.
sumber