Jadi dalam distribusi normal, kami memiliki dua parameter: mean dan variance . Dalam buku Pattern Recognition dan Machine Learning , tiba-tiba muncul hyperparameter dalam istilah regularisasi fungsi kesalahan.
Apa itu hiperparameter? Mengapa mereka dinamai demikian? Dan bagaimana mereka secara intuitif berbeda dari parameter pada umumnya?
Jawaban:
Istilah hiperparameter cukup kabur. Saya akan menggunakannya untuk merujuk ke parameter yang ada di level hierarki yang lebih tinggi daripada parameter lainnya. Sebagai contoh, pertimbangkan model regresi dengan varian yang diketahui (1 dalam kasus ini)
dan kemudian parameter sebelumnya, misalnya
Di sini menentukan distribusi β dan β menentukan distribusi untuk y . Ketika saya hanya ingin merujuk ke β saya dapat menyebutnya parameter dan ketika saya ingin hanya merujuk ke λ , saya dapat menyebutnya sebagai hyperparameter.λ β β y β λ
Penamaan menjadi lebih rumit ketika parameter muncul di beberapa level atau ketika ada lebih banyak level hierarkis (dan Anda tidak ingin menggunakan istilah hyperhyperparameters). Cara terbaik adalah jika penulis menentukan dengan tepat apa yang dimaksud ketika mereka menggunakan istilah hyperparameter atau parameter dalam hal ini.
sumber
Hyperparameter hanyalah parameter yang berdampak, sepenuhnya atau sebagian, parameter lainnya. Mereka tidak secara langsung menyelesaikan masalah pengoptimalan yang Anda hadapi, tetapi lebih mengoptimalkan parameter yang dapat menyelesaikan masalah (karena itu hiper , karena mereka bukan bagian dari masalah pengoptimalan, melainkan "addons"). Untuk apa yang saya lihat, tapi saya tidak punya referensi, hubungan ini searah (hyperparameter tidak dapat dipengaruhi oleh parameter yang memiliki pengaruh, maka juga hiper ). Mereka biasanya diperkenalkan dalam skema regularisasi atau meta-optimasi.
Sebagai contoh, parameter Anda dapat dengan bebas memengaruhi μ dan σ untuk menyesuaikan biaya regularisasi (tetapi μ dan σ tidak memiliki pengaruh pada λ ). Jadi, λ adalah hiperparameter untuk μ dan σ . Jika Anda memiliki parameter τ tambahan yang memengaruhi λ , itu akan menjadi hyperparameter untuk λ , dan hyperhyperparameter untuk μ dan σ (tapi saya belum pernah melihat nomenclatura ini, tapi saya tidak akan merasa itu salah jika saya melihatnya) .λ μ σ μ σ λ λ μ σ τ λ λ μ σ
Saya menemukan konsep hyperparameter sangat berguna untuk validasi silang, karena mengingatkan Anda tentang hierarki parameter, sementara juga mengingatkan Anda bahwa jika Anda masih memodifikasi (hyper-) parameter, Anda masih validasi silang dan tidak generalisasi sehingga Anda harus tetap hati-hati dengan kesimpulan Anda (untuk menghindari pemikiran melingkar).
sumber
Penjelasan lain agak kabur; inilah penjelasan yang lebih konkret yang harus menjelaskannya.
Hyperparameters adalah parameter model saja , bukan proses fisik yang dimodelkan. Anda memperkenalkan mereka "secara artifisial" untuk membuat model Anda "berfungsi" di hadapan data hingga dan / atau waktu komputasi terbatas . Jika Anda memiliki kekuatan tak terbatas untuk mengukur atau menghitung apa pun, hiperparameter tidak lagi ada dalam model Anda, karena mereka tidak akan menggambarkan aspek fisik dari sistem yang sebenarnya.
Parameter reguler, di sisi lain, adalah parameter yang menggambarkan sistem fisik, dan bukan sekadar memodelkan artefak.
sumber
Ini bukan istilah yang didefinisikan sebelumnya, jadi saya akan melanjutkan dan memberikan definisi lain yang tampaknya konsisten dengan penggunaan umum.
Biarkan saya melepasnya dengan contoh, ridge regression. Dalam regresi ridge kami menyelesaikan masalah pengoptimalan berikut:
sumber
Seperti yang persis ditunjukkan oleh @jaradniemi, salah satu penggunaan istilah hyperparameter berasal dari pemodelan hierarkis atau multilevel, di mana Anda memiliki kaskade model statistik, satu dibangun di atas / di bawah yang lain, biasanya menggunakan pernyataan probabilitas bersyarat.
Tetapi terminologi yang sama muncul dalam konteks lain dengan makna yang berbeda pula. Sebagai contoh, saya telah melihat istilah hyperparameter digunakan untuk merujuk pada parameter simulasi (panjang berjalan, jumlah replikasi independen, jumlah partikel yang saling berinteraksi dalam setiap replikasi, dll.) Dari model stokastik, yang tidak dihasilkan dari multilevel pemodelan.
sumber