Apa namanya: hyperparameters

19

Jadi dalam distribusi normal, kami memiliki dua parameter: mean dan variance . Dalam buku Pattern Recognition dan Machine Learning , tiba-tiba muncul hyperparameter dalam istilah regularisasi fungsi kesalahan.μσ2λ

Apa itu hiperparameter? Mengapa mereka dinamai demikian? Dan bagaimana mereka secara intuitif berbeda dari parameter pada umumnya?

cgo
sumber
3
Saya pribadi hanya berpikir itu adalah epidemi orang yang akan hiper. Hiper ini, hiper itu. Hypersphere - ini sebuah bola, d @ manit, berhenti menjadi terlalu hiper hanya karena dimensi melebihi 3. Hyperparameter - itu adalah parameter, d @ mnit, berhenti menjadi hiper hanya karena Anda memiliki beberapa di antaranya, dan entah bagaimana Anda sepertinya berpikir Anda perlu menunjukkan tingkat hierarki atau sesuatu. Dalam hal apa pun, jika Anda memiliki masalah pengoptimalan, jelaskan parameter apa yang sedang dioptimalkan, dan kendala apa pun (jika pengoptimalan multi-level, jelaskan). Saya harap saya tidak terlalu bersemangat dalam komentar ini.
Mark L. Stone
2
Saya selalu menggunakan "hypersphere" yang berarti "co-dimensional one sphere", jadi setidaknya dalam matematika, sepertinya berarti sesuatu. Atau setidaknya ketika saya berbicara tentang matematika. Saya akan tenang sekarang.
Matthew Drury

Jawaban:

18

Istilah hiperparameter cukup kabur. Saya akan menggunakannya untuk merujuk ke parameter yang ada di level hierarki yang lebih tinggi daripada parameter lainnya. Sebagai contoh, pertimbangkan model regresi dengan varian yang diketahui (1 dalam kasus ini)

yN(Xβ,I)

dan kemudian parameter sebelumnya, misalnya

βN(0,λI)

Di sini menentukan distribusi β dan β menentukan distribusi untuk y . Ketika saya hanya ingin merujuk ke β saya dapat menyebutnya parameter dan ketika saya ingin hanya merujuk ke λ , saya dapat menyebutnya sebagai hyperparameter.λββyβλ

Penamaan menjadi lebih rumit ketika parameter muncul di beberapa level atau ketika ada lebih banyak level hierarkis (dan Anda tidak ingin menggunakan istilah hyperhyperparameters). Cara terbaik adalah jika penulis menentukan dengan tepat apa yang dimaksud ketika mereka menggunakan istilah hyperparameter atau parameter dalam hal ini.

jaradniemi
sumber
Ini penjelasan yang bagus. Sekarang saya membayangkannya sebagai 'komposisi fungsi-ish'. Untuk menerjemahkan apa yang Anda masukkan ke dalam simbol-simbol, adalah Biasanya didistribusikan dengan mean X β , tapi b e t a pada gilirannya, Biasanya didistribusikan begitu dan begitu. Terima kasihyXβbetSebuah
cgo
10

Hyperparameter hanyalah parameter yang berdampak, sepenuhnya atau sebagian, parameter lainnya. Mereka tidak secara langsung menyelesaikan masalah pengoptimalan yang Anda hadapi, tetapi lebih mengoptimalkan parameter yang dapat menyelesaikan masalah (karena itu hiper , karena mereka bukan bagian dari masalah pengoptimalan, melainkan "addons"). Untuk apa yang saya lihat, tapi saya tidak punya referensi, hubungan ini searah (hyperparameter tidak dapat dipengaruhi oleh parameter yang memiliki pengaruh, maka juga hiper ). Mereka biasanya diperkenalkan dalam skema regularisasi atau meta-optimasi.

Sebagai contoh, parameter Anda dapat dengan bebas memengaruhi μ dan σ untuk menyesuaikan biaya regularisasi (tetapi μ dan σ tidak memiliki pengaruh pada λ ). Jadi, λ adalah hiperparameter untuk μ dan σ . Jika Anda memiliki parameter τ tambahan yang memengaruhi λ , itu akan menjadi hyperparameter untuk λ , dan hyperhyperparameter untuk μ dan σ (tapi saya belum pernah melihat nomenclatura ini, tapi saya tidak akan merasa itu salah jika saya melihatnya) .λμσμσλλμστλλμσ

Saya menemukan konsep hyperparameter sangat berguna untuk validasi silang, karena mengingatkan Anda tentang hierarki parameter, sementara juga mengingatkan Anda bahwa jika Anda masih memodifikasi (hyper-) parameter, Anda masih validasi silang dan tidak generalisasi sehingga Anda harus tetap hati-hati dengan kesimpulan Anda (untuk menghindari pemikiran melingkar).

gaborous
sumber
7

Penjelasan lain agak kabur; inilah penjelasan yang lebih konkret yang harus menjelaskannya.

Hyperparameters adalah parameter model saja , bukan proses fisik yang dimodelkan. Anda memperkenalkan mereka "secara artifisial" untuk membuat model Anda "berfungsi" di hadapan data hingga dan / atau waktu komputasi terbatas . Jika Anda memiliki kekuatan tak terbatas untuk mengukur atau menghitung apa pun, hiperparameter tidak lagi ada dalam model Anda, karena mereka tidak akan menggambarkan aspek fisik dari sistem yang sebenarnya.

Parameter reguler, di sisi lain, adalah parameter yang menggambarkan sistem fisik, dan bukan sekadar memodelkan artefak.

Mehrdad
sumber
6

Ini bukan istilah yang didefinisikan sebelumnya, jadi saya akan melanjutkan dan memberikan definisi lain yang tampaknya konsisten dengan penggunaan umum.

Hyperparameter adalah kuantitas yang diperkirakan dalam algoritma pembelajaran mesin yang tidak berpartisipasi dalam bentuk fungsional dari fungsi prediksi akhir.

Biarkan saya melepasnya dengan contoh, ridge regression. Dalam regresi ridge kami menyelesaikan masalah pengoptimalan berikut:

β(λ)=Argminβ((y-Xβ)t(y-Xβ)+λβtβ)
β=Argminλ(y-Xβ(λ))t(y-Xβ(λ))

X,yX,y

f(X)=Xβ

λβλ

Matthew Drury
sumber
3

Seperti yang persis ditunjukkan oleh @jaradniemi, salah satu penggunaan istilah hyperparameter berasal dari pemodelan hierarkis atau multilevel, di mana Anda memiliki kaskade model statistik, satu dibangun di atas / di bawah yang lain, biasanya menggunakan pernyataan probabilitas bersyarat.

Tetapi terminologi yang sama muncul dalam konteks lain dengan makna yang berbeda pula. Sebagai contoh, saya telah melihat istilah hyperparameter digunakan untuk merujuk pada parameter simulasi (panjang berjalan, jumlah replikasi independen, jumlah partikel yang saling berinteraksi dalam setiap replikasi, dll.) Dari model stokastik, yang tidak dihasilkan dari multilevel pemodelan.

Marcelo Ventura
sumber
1
FWIW Saya biasanya merujuk pada panjang lari, jumlah partikel yang berinteraksi, dll. Sebagai parameter tuning.
jaradniemi
Saya setuju. Bagi saya, ini merupakan pilihan yang lebih memadai daripada hyperparameter. Meskipun demikian, bagi orang lain, di bidang pengetahuan lain, itu masih terdengar cukup masuk akal.
Marcelo Ventura