Apa ide 'mendasar' pembelajaran mesin untuk memperkirakan parameter?

19

Gagasan statistik 'mendasar' untuk memperkirakan parameter adalah kemungkinan maksimum . Saya bertanya-tanya apa ide yang sesuai dalam pembelajaran mesin.

Qn 1. Apakah adil untuk mengatakan bahwa ide 'mendasar' dalam pembelajaran mesin untuk memperkirakan parameter adalah: 'Kehilangan Fungsi'

[Catatan: Adalah kesan saya bahwa algoritma pembelajaran mesin sering mengoptimalkan fungsi kerugian dan karenanya pertanyaan di atas.]

Qn 2: Apakah ada literatur yang mencoba menjembatani kesenjangan antara statistik dan pembelajaran mesin?

[Catatan: Mungkin, dengan cara menghubungkan fungsi kerugian dengan kemungkinan maksimum. (misalnya, OLS setara dengan kemungkinan maksimum untuk kesalahan yang didistribusikan secara normal, dll)]

kjetil b halvorsen
sumber
3
Saya tidak melihat minat pertanyaan ini tentang mencoba menjembatani kesenjangan fiktif. apa tujuan semua itu? selain itu ada banyak ide lain yang mendasar dalam statistik ... dan fungsi kerugian setidaknya 100 tahun. dapatkah Anda mengurangi statistik seperti itu? mungkin pertanyaan Anda adalah tentang konsep fondamental dalam pembelajaran data / statistik / mesin namun Anda menyebutnya ... Maka pertanyaannya sudah ada dan stats.stackexchange.com/questions/372/… terlalu luas .
robin girard
Yah, saya tidak tahu banyak tentang pembelajaran mesin atau hubungannya dengan statistik. Dalam kasus apa pun, lihat pertanyaan ini: stats.stackexchange.com/questions/6/… yang menunjukkan bahwa paling tidak pendekatan untuk menjawab pertanyaan yang sama berbeda. Apakah 'tidak wajar' bertanya-tanya apakah ada semacam hubungan di antara mereka? Ya, saya setuju bahwa ada banyak ide dalam statistik. Itulah sebabnya saya memiliki fundamental dalam kuotasi dan membatasi ruang lingkup untuk mengestimasi parameter bunga.
@ Tautan yang tajam antara apa? perhatikan bahwa saya sangat suka mencari tautan antara ke objek yang terdefinisi dengan baik, saya merasa sangat alami.
robin girard
6
Sebagai, bisa dibilang, seorang pelajar mesin, saya di sini untuk memberi tahu Anda bahwa kami memaksimalkan kemungkinan. Sepanjang waktu. Banyak makalah pembelajaran mesin mulai dengan "hei lihat kemungkinan saya, lihat bagaimana faktornya, lihat saya maksimalkan". Saya berpendapat bahwa berbahaya untuk mengklaim dasar mendasar dari disiplin apa pun dalam hal teknik inferensi. Ini lebih tentang konferensi yang Anda tuju!
Mike Dewar
6
Saya tidak berpikir Bayesians akan setuju dengan kemungkinan maksimum menjadi ide dasar statistik.
Marc Claesen

Jawaban:

17

Jika statistik adalah tentang memaksimalkan kemungkinan, maka pembelajaran mesin adalah tentang meminimalkan kerugian. Karena Anda tidak tahu kerugian yang akan Anda derita pada data yang akan datang, Anda meminimalkan perkiraan, yaitu kerugian empiris.

Misalnya, jika Anda memiliki tugas prediksi dan dievaluasi oleh jumlah kesalahan klasifikasi, Anda dapat melatih parameter sehingga model yang dihasilkan menghasilkan jumlah kesalahan klasifikasi paling kecil pada data pelatihan. "Jumlah kesalahan klasifikasi" (mis., Kerugian 0-1) adalah fungsi kehilangan yang sulit untuk digunakan karena itu tidak dapat dibedakan, jadi Anda memperkirakannya dengan "pengganti" yang lancar. Misalnya, kehilangan log adalah batas atas pada kerugian 0-1, jadi Anda bisa meminimalkannya, dan ini akan menjadi sama dengan memaksimalkan kemungkinan kondisional data. Dengan model parametrik, pendekatan ini menjadi setara dengan regresi logistik.

Dalam tugas pemodelan terstruktur, dan perkiraan kehilangan-log 0-1, Anda mendapatkan sesuatu yang berbeda dari kemungkinan bersyarat maksimum, Anda malah akan memaksimalkan produk dari kemungkinan marginal (bersyarat).

Untuk mendapatkan perkiraan kerugian yang lebih baik, orang-orang memperhatikan bahwa model pelatihan untuk meminimalkan kehilangan dan menggunakan kehilangan itu sebagai perkiraan kerugian di masa depan adalah perkiraan yang terlalu optimis. Jadi untuk minimisasi (true future loss) yang lebih akurat mereka menambahkan istilah koreksi bias menjadi kerugian empiris dan meminimalkan itu, ini dikenal sebagai minimisasi risiko terstruktur.

Dalam praktiknya, mencari tahu istilah koreksi bias yang tepat mungkin terlalu sulit, jadi Anda menambahkan ekspresi "dalam semangat" istilah koreksi bias, misalnya, jumlah kuadrat parameter. Pada akhirnya, hampir semua pembelajaran mesin parametrik yang menggunakan pendekatan klasifikasi yang diawasi akhirnya melatih model untuk meminimalkan hal-hal berikut

iL(m(xi,w),yi)+P(w)

di mana adalah model Anda parametrized oleh vektor w , saya diambil alih semua datapoints { x i , y i } , L adalah beberapa pendekatan yang bagus secara komputasi dari kerugian Anda yang sebenarnya dan P ( w ) adalah beberapa istilah koreksi-koreksi / regularisasimwi{xi,yi}LP(w)

Misalnya jika , y { - 1 , 1 } Anda , pendekatan tipikal adalah membiarkan m ( x ) = tanda ( w x ) , L ( m ( x ) , y ) = - log ( y × ( x w ) ) , P (x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw)) , dan pilih q dengan validasi silangP(w)=q×(ww)q

Yaroslav Bulatov
sumber
3
Saya ingin melihat kehilangan ini diminimalkan dalam pengelompokan, kNN atau pakis acak ...
Nah, untuk karakterisasi fungsi kerugian k-means tetangga terdekat, lihat subbagian yang relevan (2.5) dari makalah ini: hpl.hp.com/conferences/icml2003/papers/21.pdf
John L. Taylor
@ John Still, ini pencampuran tujuan dengan alasan. Anda dapat menjelaskan setiap algoritma dalam hal meminimalkan sesuatu dan menyebut ini sesuatu "kerugian". kNN tidak ditemukan sedemikian rupa: Kawan, saya sudah memikirkan kerugian seperti ini, mari optimalkan dan lihat apa yang akan terjadi !; alih-alih Guys, katakanlah keputusan itu lebih kurang kontinu atas ruang fitur, maka jika kita akan memiliki ukuran kesamaan yang baik ... dan seterusnya.
2
"Jika statistik adalah tentang memaksimalkan kemungkinan, maka pembelajaran mesin adalah tentang meminimalkan kerugian" Saya tidak setuju dengan premis Anda - kuat dan secara keseluruhan. Mungkin itu benar-statistik statistik pada tahun 1920, tetapi tentu saja tidak hari ini.
JMS
19

Saya akan memberikan jawaban yang terperinci. Dapat memberikan lebih banyak kutipan sesuai permintaan, meskipun ini tidak terlalu kontroversial.

  • Statistik tidak semua tentang memaksimalkan (log) -kemungkinan. Itu merupakan laknat bagi para bayesian berprinsip yang baru saja memperbarui posisi mereka atau menyebarkan keyakinan mereka melalui model yang sesuai.
  • Banyak statistik adalah tentang meminimalkan kerugian. Dan begitu banyak Pembelajaran Mesin. Minimalisasi kerugian empiris memiliki arti yang berbeda dalam ML. Untuk tampilan naratif yang jelas, lihat "Sifat pembelajaran statistik" Vapnik
  • Machine Learning tidak semua tentang minimalisasi kerugian. Pertama, karena ada banyak bayesian di ML; kedua, karena sejumlah aplikasi dalam ML harus dilakukan dengan pembelajaran temporal dan perkiraan DP. Tentu, ada fungsi obyektif, tetapi memiliki makna yang sangat berbeda dari pada pembelajaran "statistik".

Saya tidak berpikir ada kesenjangan antara bidang, hanya banyak pendekatan yang berbeda, semua tumpang tindih sampai batas tertentu. Saya tidak merasa perlu membuat mereka menjadi disiplin ilmu sistematis dengan perbedaan dan persamaan yang terdefinisi dengan baik, dan mengingat kecepatan mereka berkembang, saya pikir bagaimanapun juga itu adalah perusahaan yang hancur.

gappy
sumber
8

Saya tidak dapat memposting komentar (tempat yang tepat untuk komentar ini) karena saya tidak memiliki reputasi yang cukup, tetapi jawabannya diterima sebagai jawaban terbaik oleh pemilik pertanyaan yang tidak mengerti maksudnya.

"Jika statistik adalah tentang memaksimalkan kemungkinan, maka pembelajaran mesin adalah tentang meminimalkan kerugian."

Kemungkinannya adalah fungsi kerugian. Memaksimalkan kemungkinan sama dengan meminimalkan fungsi kerugian: penyimpangan, yang hanya -2 kali fungsi kemungkinan-log. Demikian pula menemukan solusi kuadrat terkecil adalah tentang meminimalkan fungsi kerugian yang menggambarkan jumlah residu kuadrat.

Baik ML dan statistik menggunakan algoritma untuk mengoptimalkan kesesuaian beberapa fungsi (dalam istilah yang luas) untuk data. Optimalisasi harus melibatkan meminimalkan beberapa fungsi kerugian.

Thylacoleo
sumber
1
Poin bagus, masih ada perbedaan utama di tempat lain; pertama, statistik adalah tentang menyesuaikan model dengan data yang dimiliki, ML adalah tentang menyesuaikan model dengan data yang akan dimiliki; kedua, statistik MENANGGUNG bahwa suatu proses yang diamati sepenuhnya didorong oleh model "tersembunyi" sepele yang mereka ingin gali, sementara ML TRIES membuat beberapa yang cukup rumit untuk menjadi model yang bebas masalah, berperilaku seperti kenyataan.
@ mbq. Itu karikatur statistik yang agak kasar. Saya telah bekerja di lima departemen statistik universitas dan saya pikir saya belum pernah bertemu orang yang berpikir tentang statistik seperti itu.
Rob Hyndman
1
@Rob Karikatur? Saya pikir inilah yang membuat statistik indah! Anda menganggap semua gaussians dan linearitas dan itu hanya berfungsi - dan ada alasan untuk itu yang disebut ekspansi Taylor. Dunia adalah neraka yang kompleks, tetapi dalam perkiraan linier. (yang sering sembilan puluh% dari kompleksitas) memalukan sepele. ML (dan statistik nonparametrik) masuk dalam beberapa persen situasi di mana beberapa pendekatan yang lebih halus diperlukan. Ini bukan makan siang gratis - jika Anda menginginkan teorema, Anda perlu asumsi; jika Anda tidak ingin asumsi, Anda memerlukan metode perkiraan.
@ mbq. Cukup adil. Saya pasti salah mengartikan komentar Anda.
Rob Hyndman
4

Ada jawaban sepele - tidak ada estimasi parameter dalam pembelajaran mesin! Kami tidak berasumsi bahwa model kami setara dengan beberapa model latar belakang tersembunyi; kami memperlakukan realitas dan model sebagai kotak hitam dan kami mencoba mengguncang kotak model (kereta dalam terminologi resmi) sehingga hasilnya akan sama dengan kotak kenyataan.

Konsep tidak hanya kemungkinan tetapi seluruh pemilihan model berdasarkan data pelatihan diganti dengan mengoptimalkan akurasi (apa pun yang didefinisikan; pada prinsipnya kebaikan yang digunakan digunakan) pada data yang tidak terlihat; ini memungkinkan untuk mengoptimalkan presisi dan penarikan secara bersamaan. Ini mengarah pada konsep kemampuan untuk menggeneralisasi, yang dicapai dengan berbagai cara tergantung pada tipe pembelajar.

Jawaban untuk pertanyaan dua sangat tergantung pada definisi; masih saya pikir bahwa statistik nonparametrik adalah sesuatu yang menghubungkan keduanya.


sumber
Saya tidak yakin ini sepenuhnya benar. Dalam hal apa metode pembelajaran mesin bekerja tanpa estimasi parameter (dalam set model parametrik atau bebas distribusi)?
John L. Taylor
1
Anda memperkirakan / menghitung sesuatu (istilah yang tepat mungkin berbeda). Misalnya, pertimbangkan jaringan saraf. Apakah Anda tidak menghitung bobot untuk jaring ketika Anda mencoba memprediksi sesuatu? Selain itu, ketika Anda mengatakan bahwa Anda berlatih untuk mencocokkan keluaran dengan kenyataan, Anda tampaknya secara implisit berbicara tentang semacam fungsi kerugian.
@ John, @Srikant Pembelajar memiliki parameter, tetapi itu bukan parameter dalam arti statistik. Pertimbangkan regresi linier y = a x (tanpa istilah gratis untuk simp.). a adalah parameter yang sesuai dengan metode statistik, dimasukkan ke dalam asumsi bahwa y = a x. Pembelajaran mesin hanya akan mencoba menghasilkan x ketika diminta untuk x dalam rentang kereta (ini masuk akal, karena tidak mengasumsikan y = a x); mungkin cocok dengan ratusan parameter untuk melakukan ini.
3
[rujukan?]. Dengan kata lain, jawaban yang menggelitik, meskipun tidak cocok (setidaknya) dengan banyak literatur ML.
gappy
1
Yang klasik adalah "Pemodelan Statistik: Dua Budaya" Breiman.
2

Saya tidak berpikir ada ide mendasar tentang estimasi parameter dalam Pembelajaran Mesin. Kerumunan ML akan dengan senang hati memaksimalkan kemungkinan atau posterior, asalkan algoritma tersebut efisien dan memprediksi "secara akurat". Fokusnya adalah pada komputasi, dan hasil dari statistik banyak digunakan.

Jika Anda mencari ide-ide fundamental secara umum, maka dalam teori pembelajaran komputasi, PAC adalah pusat; dalam teori pembelajaran statistik, minimalisasi risiko struktural ; dan ada area lain (misalnya, lihat posting Science Prediksi oleh John Langford).

Pada menjembatani statistik / ML, membagi tampaknya berlebihan. Saya menyukai jawaban Gappy untuk pertanyaan "Dua Budaya".

ars
sumber
Kerumunan statistik mengklik secara acak di SPSS hingga muncul nilai p yang diinginkan ...
1

Anda dapat menulis ulang masalah maksimalisasi kemungkinan sebagai masalah minimisasi-kerugian dengan mendefinisikan kerugian sebagai log negatif kemungkinan. Jika kemungkinan adalah produk dari probabilitas independen atau kepadatan probabilitas, kerugian akan menjadi jumlah dari istilah independen, yang dapat dihitung secara efisien. Selanjutnya, jika variabel stokastik terdistribusi normal, masalah kerugian-minimalisasi yang sesuai akan menjadi masalah kuadrat terkecil.

Jika mungkin untuk membuat masalah kerugian-minimisasi dengan menulis ulang kemungkinan-maksimalisasi, ini harus dengan lebih suka membuat masalah kerugian-minimisasi dari awal, karena itu akan menimbulkan masalah kerugian-minimisasi yang (semoga) lebih secara teoritis didirikan dan kurang ad hoc. Sebagai contoh, bobot, seperti dalam kuadrat terkecil tertimbang, yang biasanya Anda harus nilai perkiraan untuk, hanya akan muncul dari proses penulisan ulang masalah maksimalisasi kemungkinan-likelihood dan sudah (semoga) memiliki nilai optimal.

Halo selamat tinggal
sumber