Gagasan statistik 'mendasar' untuk memperkirakan parameter adalah kemungkinan maksimum . Saya bertanya-tanya apa ide yang sesuai dalam pembelajaran mesin.
Qn 1. Apakah adil untuk mengatakan bahwa ide 'mendasar' dalam pembelajaran mesin untuk memperkirakan parameter adalah: 'Kehilangan Fungsi'
[Catatan: Adalah kesan saya bahwa algoritma pembelajaran mesin sering mengoptimalkan fungsi kerugian dan karenanya pertanyaan di atas.]
Qn 2: Apakah ada literatur yang mencoba menjembatani kesenjangan antara statistik dan pembelajaran mesin?
[Catatan: Mungkin, dengan cara menghubungkan fungsi kerugian dengan kemungkinan maksimum. (misalnya, OLS setara dengan kemungkinan maksimum untuk kesalahan yang didistribusikan secara normal, dll)]
machine-learning
maximum-likelihood
loss-functions
pac-learning
kjetil b halvorsen
sumber
sumber
Jawaban:
Jika statistik adalah tentang memaksimalkan kemungkinan, maka pembelajaran mesin adalah tentang meminimalkan kerugian. Karena Anda tidak tahu kerugian yang akan Anda derita pada data yang akan datang, Anda meminimalkan perkiraan, yaitu kerugian empiris.
Misalnya, jika Anda memiliki tugas prediksi dan dievaluasi oleh jumlah kesalahan klasifikasi, Anda dapat melatih parameter sehingga model yang dihasilkan menghasilkan jumlah kesalahan klasifikasi paling kecil pada data pelatihan. "Jumlah kesalahan klasifikasi" (mis., Kerugian 0-1) adalah fungsi kehilangan yang sulit untuk digunakan karena itu tidak dapat dibedakan, jadi Anda memperkirakannya dengan "pengganti" yang lancar. Misalnya, kehilangan log adalah batas atas pada kerugian 0-1, jadi Anda bisa meminimalkannya, dan ini akan menjadi sama dengan memaksimalkan kemungkinan kondisional data. Dengan model parametrik, pendekatan ini menjadi setara dengan regresi logistik.
Dalam tugas pemodelan terstruktur, dan perkiraan kehilangan-log 0-1, Anda mendapatkan sesuatu yang berbeda dari kemungkinan bersyarat maksimum, Anda malah akan memaksimalkan produk dari kemungkinan marginal (bersyarat).
Untuk mendapatkan perkiraan kerugian yang lebih baik, orang-orang memperhatikan bahwa model pelatihan untuk meminimalkan kehilangan dan menggunakan kehilangan itu sebagai perkiraan kerugian di masa depan adalah perkiraan yang terlalu optimis. Jadi untuk minimisasi (true future loss) yang lebih akurat mereka menambahkan istilah koreksi bias menjadi kerugian empiris dan meminimalkan itu, ini dikenal sebagai minimisasi risiko terstruktur.
Dalam praktiknya, mencari tahu istilah koreksi bias yang tepat mungkin terlalu sulit, jadi Anda menambahkan ekspresi "dalam semangat" istilah koreksi bias, misalnya, jumlah kuadrat parameter. Pada akhirnya, hampir semua pembelajaran mesin parametrik yang menggunakan pendekatan klasifikasi yang diawasi akhirnya melatih model untuk meminimalkan hal-hal berikut
di mana adalah model Anda parametrized oleh vektor w , saya diambil alih semua datapoints { x i , y i } , L adalah beberapa pendekatan yang bagus secara komputasi dari kerugian Anda yang sebenarnya dan P ( w ) adalah beberapa istilah koreksi-koreksi / regularisasim w i {xi,yi} L P(w)
Misalnya jika , y ∈ { - 1 , 1 } Anda , pendekatan tipikal adalah membiarkan m ( x ) = tanda ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}d y∈{−1,1} m(x)=sign(w⋅x) L(m(x),y)=−log(y×(x⋅w)) , dan pilih q dengan validasi silangP(w)=q×(w⋅w) q
sumber
Saya akan memberikan jawaban yang terperinci. Dapat memberikan lebih banyak kutipan sesuai permintaan, meskipun ini tidak terlalu kontroversial.
Saya tidak berpikir ada kesenjangan antara bidang, hanya banyak pendekatan yang berbeda, semua tumpang tindih sampai batas tertentu. Saya tidak merasa perlu membuat mereka menjadi disiplin ilmu sistematis dengan perbedaan dan persamaan yang terdefinisi dengan baik, dan mengingat kecepatan mereka berkembang, saya pikir bagaimanapun juga itu adalah perusahaan yang hancur.
sumber
Saya tidak dapat memposting komentar (tempat yang tepat untuk komentar ini) karena saya tidak memiliki reputasi yang cukup, tetapi jawabannya diterima sebagai jawaban terbaik oleh pemilik pertanyaan yang tidak mengerti maksudnya.
"Jika statistik adalah tentang memaksimalkan kemungkinan, maka pembelajaran mesin adalah tentang meminimalkan kerugian."
Kemungkinannya adalah fungsi kerugian. Memaksimalkan kemungkinan sama dengan meminimalkan fungsi kerugian: penyimpangan, yang hanya -2 kali fungsi kemungkinan-log. Demikian pula menemukan solusi kuadrat terkecil adalah tentang meminimalkan fungsi kerugian yang menggambarkan jumlah residu kuadrat.
Baik ML dan statistik menggunakan algoritma untuk mengoptimalkan kesesuaian beberapa fungsi (dalam istilah yang luas) untuk data. Optimalisasi harus melibatkan meminimalkan beberapa fungsi kerugian.
sumber
Ada jawaban sepele - tidak ada estimasi parameter dalam pembelajaran mesin! Kami tidak berasumsi bahwa model kami setara dengan beberapa model latar belakang tersembunyi; kami memperlakukan realitas dan model sebagai kotak hitam dan kami mencoba mengguncang kotak model (kereta dalam terminologi resmi) sehingga hasilnya akan sama dengan kotak kenyataan.
Konsep tidak hanya kemungkinan tetapi seluruh pemilihan model berdasarkan data pelatihan diganti dengan mengoptimalkan akurasi (apa pun yang didefinisikan; pada prinsipnya kebaikan yang digunakan digunakan) pada data yang tidak terlihat; ini memungkinkan untuk mengoptimalkan presisi dan penarikan secara bersamaan. Ini mengarah pada konsep kemampuan untuk menggeneralisasi, yang dicapai dengan berbagai cara tergantung pada tipe pembelajar.
Jawaban untuk pertanyaan dua sangat tergantung pada definisi; masih saya pikir bahwa statistik nonparametrik adalah sesuatu yang menghubungkan keduanya.
sumber
Saya tidak berpikir ada ide mendasar tentang estimasi parameter dalam Pembelajaran Mesin. Kerumunan ML akan dengan senang hati memaksimalkan kemungkinan atau posterior, asalkan algoritma tersebut efisien dan memprediksi "secara akurat". Fokusnya adalah pada komputasi, dan hasil dari statistik banyak digunakan.
Jika Anda mencari ide-ide fundamental secara umum, maka dalam teori pembelajaran komputasi, PAC adalah pusat; dalam teori pembelajaran statistik, minimalisasi risiko struktural ; dan ada area lain (misalnya, lihat posting Science Prediksi oleh John Langford).
Pada menjembatani statistik / ML, membagi tampaknya berlebihan. Saya menyukai jawaban Gappy untuk pertanyaan "Dua Budaya".
sumber
Anda dapat menulis ulang masalah maksimalisasi kemungkinan sebagai masalah minimisasi-kerugian dengan mendefinisikan kerugian sebagai log negatif kemungkinan. Jika kemungkinan adalah produk dari probabilitas independen atau kepadatan probabilitas, kerugian akan menjadi jumlah dari istilah independen, yang dapat dihitung secara efisien. Selanjutnya, jika variabel stokastik terdistribusi normal, masalah kerugian-minimalisasi yang sesuai akan menjadi masalah kuadrat terkecil.
Jika mungkin untuk membuat masalah kerugian-minimisasi dengan menulis ulang kemungkinan-maksimalisasi, ini harus dengan lebih suka membuat masalah kerugian-minimisasi dari awal, karena itu akan menimbulkan masalah kerugian-minimisasi yang (semoga) lebih secara teoritis didirikan dan kurang ad hoc. Sebagai contoh, bobot, seperti dalam kuadrat terkecil tertimbang, yang biasanya Anda harus nilai perkiraan untuk, hanya akan muncul dari proses penulisan ulang masalah maksimalisasi kemungkinan-likelihood dan sudah (semoga) memiliki nilai optimal.
sumber