Optimalisasi dan Pembelajaran Mesin

13

Saya ingin tahu berapa banyak pembelajaran mesin membutuhkan optimasi. Dari apa yang saya dengar statistik adalah topik matematika yang penting bagi orang yang bekerja dengan pembelajaran mesin. Demikian pula seberapa pentingkah bagi seseorang yang bekerja dengan pembelajaran mesin untuk belajar tentang optimasi cembung atau non-cembung?

Ronald Grayson
sumber
2
"bekerja dengan pembelajaran mesin" adalah konsep yang tidak jelas - bekerja untuk mengembangkan metode ML yang lebih baik akan berarti satu jawaban, mengembangkan sistem ML yang menggunakan metode yang dikenal adalah hal yang sama sekali berbeda.
Peteris

Jawaban:

28

Cara saya melihatnya adalah bahwa statistik / pembelajaran mesin memberi tahu Anda apa yang harus Anda optimalkan, dan optimasi adalah bagaimana Anda sebenarnya melakukannya.

Sebagai contoh, perhatikan regresi linier dengan mana E ( ε ) = 0 dan V sebuah r ( ε ) = σ 2 saya . Statistik mengatakan bahwa ini adalah (sering) model yang baik, tapi kami menemukan perkiraan kami sebenarnya β dengan memecahkan masalah optimasiY=Xβ+εE(ε)=0Var(ε)=σ2Iβ^

β^=argminbRp||YXb||2.

Sifat-sifat β dikenal kepada kita melalui statistik sehingga kita tahu bahwa ini adalah masalah optimasi yang baik untuk memecahkan. Dalam hal ini optimasi yang mudah tetapi ini masih menunjukkan prinsip umum.β^

Lebih umum, banyak pembelajaran mesin dapat dilihat sebagai pemecahan f = argmin f F 1 mana saya menulis ini tanpa regularisasi tetapi itu dapat dengan mudah ditambahkan.

f^=argminfF1nsaya=1nL(ysaya,f(xsaya))

Sejumlah besar penelitian dalam teori belajar statistik (SLT) telah mempelajari sifat-sifat argminima ini, apakah mereka optimal secara asimptotik, bagaimana mereka berhubungan dengan kompleksitas , dan banyak hal lainnya. Tetapi ketika Anda benar-benar ingin mendapatkan f , sering Anda berakhir dengan optimasi yang sulit dan itu satu set terpisah seluruh orang yang mempelajari masalah itu. Saya pikir sejarah SVM adalah contoh yang baik di sini. Kami memiliki orang-orang SLT seperti Vapnik dan Cortes (dan banyak lainnya) yang menunjukkan bagaimana SVM adalah masalah optimisasi yang baik untuk dipecahkan. Tapi kemudian yang lain seperti John Platt dan penulis LIBSVM yang membuat ini layak dalam praktik.Ff^

Untuk menjawab pertanyaan Anda yang tepat, mengetahui beberapa optimasi tentu saja membantu tetapi umumnya tidak ada yang ahli dalam semua bidang ini sehingga Anda belajar sebanyak yang Anda bisa tetapi beberapa aspek akan selalu menjadi semacam kotak hitam bagi Anda. Mungkin Anda belum mempelajari dengan benar hasil SLT di balik algoritma ML favorit Anda, atau mungkin Anda tidak tahu cara kerja pengoptimal yang Anda gunakan. Ini adalah perjalanan seumur hidup.

jld
sumber
3
Layak disebutkan secara eksplisit en.wikipedia.org/wiki/Empirical_risk_minimization
Emre
13

Dalam praktiknya, banyak paket yang menangani optimasi dan sebagian besar detail matematika untuk Anda. Sebagai contoh, TensorFlow dapat melakukan backprop + stochastic descent gradient untuk melatih jaring saraf untuk Anda secara otomatis (Anda hanya perlu menentukan tingkat pembelajaran). Alat ML scikit-learn pada umumnya tidak mengharuskan Anda untuk benar-benar mengetahui hal-hal tentang bagaimana sebenarnya optimasi terjadi, tetapi mungkin hanya mengatur beberapa parameter penyetelan dan menangani sisanya (mis. jumlah iterasi yang dijalankan oleh optimizer). Misalnya, Anda dapat melatih SVM tanpa mengetahui matematika apa pun di scikit-learn-- cukup masukkan data, jenis kernel, dan lanjutkan.

Yang sedang berkata, mengetahui optimasi dasar (misalnya pada tingkat Boyd dan Vandenberghe's Convex Optimization / Nonlinear programming Bertsekas ') dapat membantu dalam algoritma / desain masalah dan analisis, terutama jika Anda sedang mengerjakan hal-hal teori. Atau, implementasikan algoritma pengoptimalan sendiri.

Perhatikan bahwa metode pengoptimalan buku teks sering membutuhkan penyesuaian untuk benar-benar berfungsi dalam pengaturan modern; misalnya, Anda mungkin tidak menggunakan penurunan gradien stokastik Robbins-Munroe, tetapi varian akselerasi yang lebih cepat. Namun demikian, Anda dapat memperoleh beberapa wawasan dari bekerja dengan masalah optimisasi.

Batman
sumber