Saya mencoba untuk menyetel hyperparameter dari algoritma regresi proses gaussian yang telah saya terapkan. Saya hanya ingin memaksimalkan kemungkinan marginal log yang diberikan oleh rumus mana K adalah matriks kovarians dengan elemen K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) + a ^ {- 1 } \ delta_ {ij} di mana M = lI dan a, b dan l adalah hyperparameters.
turunan sebagian dari parameter kemungkinan log marginal diberikan oleh
Sebagai entri dari bergantung pada parameter, begitu derivatif dan kebalikan dari . Ini berarti, ketika optimizer berbasis gradien digunakan, mengevaluasi gradien pada titik tertentu (nilai parameter) akan memerlukan perhitungan ulang dari matriks kovarians. Dalam aplikasi saya, ini tidak layak karena menghitung matriks kovarians dari awal dan menghitung kebalikannya dalam setiap iterasi kenaikan gradien terlalu mahal. Pertanyaan saya adalah apa pilihan saya untuk menemukan kombinasi yang cukup bagus dari ketiga parameter ini? dan saya juga tidak tahu parameter mana yang harus dioptimalkan terlebih dahulu dan saya akan menghargai petunjuk tentang masalah ini juga.
sumber
Jawaban:
Anda benar bahwa Anda memerlukan perhitungan matriks kovarians baru pada setiap iterasi kenaikan gradien. Jadi jika perhitungan matriks tidak layak untuk pengaturan Anda, maka, saya pikir, Anda tidak dapat menggunakan optimasi kemungkinan marginal berbasis marginal.
Saran saya adalah menggunakan metode bebas-gradien untuk penyetelan hyperparameter, seperti pencarian kotak, pencarian acak, atau pencarian berbasis optimasi Bayesian . Metode-metode ini banyak digunakan untuk hyperparameters optimasi algoritma pembelajaran mesin lainnya misalnya SVM.
Saya sarankan pencarian grid untuk percobaan pertama Anda. Anda pada dasarnya membentuk tabel (kisi-kisi) dari kemungkinan hiperparameter, coba semuanya, dan cari kinerja validasi terbaik (atau kemungkinan marginal terbaik).
Pencarian grid akan menghasilkan set hiperparameter suboptimal, dan Anda harus menentukan sendiri grid (tip: buat grid dalam skala log) tetapi perhitungan jauh lebih sedikit diperlukan. (dan Anda tidak perlu gradien!)
Jika Anda tidak terbiasa dengan pencarian kisi, Anda dapat mencari Wikipedia: Hyperparameter Optimization - Pencarian Kisi
sumber