Saya mencari makalah yang dapat membantu dalam memberikan pedoman tentang bagaimana memilih hyperparameter arsitektur yang mendalam, seperti auto-encoders stacked atau jaringan deep trust. Ada banyak hiperparameter dan saya sangat bingung bagaimana memilihnya. Juga menggunakan validasi silang bukan pilihan karena pelatihan benar-benar membutuhkan banyak waktu!
38
Jawaban:
Pada dasarnya ada empat metode:
sumber
Berbagai macam metode ada. Mereka sebagian besar dapat dipartisi dalam metode pencarian acak / tidak diarahkan (seperti pencarian grid atau pencarian acak) dan metode langsung. Perlu diketahui, bahwa mereka semua memerlukan pengujian sejumlah pengaturan hiperparameter kecuali Anda beruntung (setidaknya ratusan, tergantung pada jumlah parameter).
Dalam kelas metode langsung, beberapa pendekatan berbeda dapat diidentifikasi:
Anda mungkin ingin melihat Optunity , paket Python yang menawarkan berbagai solver untuk penyetelan hyperparameter (semua yang saya sebutkan kecuali EGO dan Kriging, untuk saat ini). Optunity akan segera tersedia untuk MATLAB dan R. Penafian: Saya adalah pengembang utama dari paket ini.
Berdasarkan pengalaman pribadi saya, metode evolusi sangat kuat untuk jenis masalah ini.
sumber
Tidak terlihat lagi! Yoshua Bengio menerbitkan salah satu makalah terapan favorit saya, salah satu yang saya rekomendasikan untuk semua insinyur pembelajaran mesin baru ketika mereka mulai melatih jaring saraf: Rekomendasi praktis untuk pelatihan berbasis gradien arsitektur dalam. Untuk mendapatkan perspektifnya tentang perputaran hyperparameter: termasuk laju pembelajaran, jadwal laju pembelajaran, penghentian dini, ukuran minibatch, jumlah lapisan tersembunyi, dll., Lihat Bagian 3.
sumber