Keuntungan mendekati masalah dengan merumuskan fungsi biaya yang dapat dioptimalkan secara global

9

Ini adalah pertanyaan yang agak umum (yaitu tidak harus spesifik untuk statistik), tetapi saya telah memperhatikan tren dalam pembelajaran mesin dan literatur statistik di mana penulis lebih suka mengikuti pendekatan berikut:

Pendekatan 1 : Dapatkan solusi untuk masalah praktis dengan merumuskan fungsi biaya yang memungkinkan (misalnya dari sudut pandang komputasi) untuk menemukan solusi optimal secara global (misalnya dengan merumuskan fungsi biaya cembung).

daripada:

Pendekatan 2 : Dapatkan solusi untuk masalah yang sama dengan merumuskan fungsi biaya yang kita mungkin tidak dapat memperoleh solusi optimal secara global (misalnya kita hanya bisa mendapatkan solusi optimal secara lokal untuk itu).

Perhatikan bahwa kedua masalah itu sangat berbeda; asumsinya adalah kita dapat menemukan solusi optimal secara global untuk solusi pertama, tetapi tidak untuk solusi kedua.

Selain pertimbangan lain (yaitu kecepatan, kemudahan implementasi, dll.), Saya mencari:

  1. Sebuah penjelasan dari kecenderungan ini (misalnya argumen matematika atau sejarah)
  2. Manfaat (praktis dan / atau teoretis) untuk mengikuti Pendekatan 1 daripada 2 saat memecahkan masalah praktis.
Amelio Vazquez-Reina
sumber

Jawaban:

3

Saya percaya bahwa tujuannya adalah untuk mengoptimalkan fungsi yang Anda minati. Jika itu terjadi pada jumlah kesalahan klasifikasi - dan bukan kemungkinan binomial, katakanlah - maka Anda harus mencoba meminimalkan jumlah kesalahan klasifikasi. Namun, untuk sejumlah alasan praktis yang disebutkan (kecepatan, implementasi, ketidakstabilan, dll), ini mungkin tidak begitu mudah dan bahkan mungkin tidak mungkin. Dalam hal ini, kami memilih untuk memperkirakan solusi.

Saya tahu pada dasarnya dua strategi perkiraan; baik kita datang dengan algoritma yang mencoba untuk secara langsung memperkirakan solusi dari masalah asli, atau kami merumuskan kembali masalah asli sebagai masalah yang lebih langsung dipecahkan (misalnya relaksasi cembung).

Sebuah matematika argumen untuk memilih satu pendekatan di atas yang lain adalah apakah kita dapat memahami a) sifat-sifat dari solusi benar-benar dihitung dan b) seberapa baik solusi mendekati solusi dari masalah yang kita benar-benar tertarik.

Saya tahu banyak hasil dalam statistik di mana kami dapat membuktikan properti dari solusi untuk masalah optimasi. Bagi saya kelihatannya lebih sulit untuk menganalisis solusi dari suatu algoritma, di mana Anda tidak memiliki formulasi matematis dari apa yang dihitungnya (mis. Bahwa ia memecahkan masalah optimasi yang diberikan). Saya tentu tidak akan mengklaim bahwa Anda tidak bisa, tetapi tampaknya menjadi manfaat teoretis , jika Anda dapat memberikan formulasi matematika yang jelas tentang apa yang Anda hitung.

Tidak jelas bagi saya, jika argumen matematis seperti itu memberikan manfaat praktis untuk Pendekatan 1 daripada Pendekatan 2. Tentu saja ada seseorang di luar sana, yang tidak takut dengan fungsi kerugian yang tidak cembung .

NRH
sumber
Terima kasih untuk referensi ceramah Yann LeCun. Saya berharap untuk menontonnya.
Amelio Vazquez-Reina
1

@NRH memberikan jawaban untuk pertanyaan ini (lebih dari 5 tahun yang lalu), jadi saya hanya akan menawarkan Pendekatan 3, yang menggabungkan Pendekatan 1 dan 2.

Pendekatan 3 :

  1. Merumuskan dan menyelesaikan masalah optimalisasi global cembung, atau dalam hal apa pun, yang dapat dioptimalkan secara global (tidak harus cembung), masalah yang "dekat" dengan masalah yang ingin Anda selesaikan.
  2. Gunakan solusi optimal global dari langkah 1 sebagai solusi awal (awal) ke masalah optimisasi non-cembung yang Anda benar-benar ingin pecahkan (atau lebih ingin dipecahkan daripada masalah yang dipecahkan di langkah 1). Berharap bahwa solusi awal Anda berada di "wilayah tarik-menarik" ke global optimal relatif terhadap metode solusi yang digunakan untuk memecahkan masalah optimisasi non-cembung yang benar-benar ingin Anda pecahkan.
Mark L. Stone
sumber
Tolong berikan contoh konkret.
horaceT
Ini bukan kasus Markus, tetapi pendekatan yang umum dalam banyak masalah penglihatan komputer adalah dengan menggunakan tingkat non-konveksitas untuk mendapatkan urutan optima lokal "baik" pada masalah terkait. Contoh konkret adalah aliran optik kasar ke halus di mana untuk sepasang gambar, penyelarasan skala kasar digunakan untuk menyemai pencarian pada skala yang lebih halus, bergerak melalui sepasang piramida gambar .
GeoMatt22
@horaceT Katakanlah Anda ingin menyelesaikan masalah kuadrat terkecil nonlinier ~ , yang non-cembung. Sebagai langkah 1, Anda bisa menyelesaikan masalah linear kuadrat terkecil ~ , yang cembung dan dapat diselesaikan dengan optimalitas global. Kemudian pada langkah 2 gunakan sebagai nilai awal untuk kuadrat terkecil nonlinear. Masalahnya serupa, tetapi kesalahan diperlakukan berbeda. Ada banyak masalah di mana denda non-cembung diinginkan (untuk langkah 2), tetapi bisa diganti dengan penalti cembung untuk langkah 1. Beberapa iterasi juga dimungkinkan. a e b x y a a + b b x a = e a a o p t i m a l , b = b b o p t i m a lySebuahebxySebuahSebuah+bbxSebuah=eSebuahSebuahHaihaltsayamSebuahl,b=bbHaihaltsayamSebuahl
Mark L. Stone
@ GeoMatt22 Apa yang Anda gambarkan serupa dalam semangat, dan tumpang tindih dengan apa yang disebut metode homotopy, di mana jalan menuju solusi masalah yang Anda ingin selesaikan dilacak dengan memecahkan serangkaian masalah di mana parameter, seperti parameter batasan kendala, secara bertahap diubah dan masalah berturut-turut dipecahkan, yang masalah pertama mudah diselesaikan dari awal. Memang bisa menjadi kasus bahwa masalah pertama adalah cembung, atau jika tidak setuju dengan solusi, tetapi masalah kemudian mungkin tidak, meskipun solusi optimal mereka mungkin kontinu dalam parameter.
Mark L. Stone