Saya telah melihat dua jenis formulasi kehilangan logistik. Kita dapat dengan mudah menunjukkan bahwa keduanya identik, satu-satunya perbedaan adalah definisi label .
Formulasi / notasi 1, :
di mana , di mana fungsi logistik memetakan angka nyata hingga 0,1 interval.
Formulasi / notasi 2, :
Memilih notasi seperti memilih bahasa, ada pro dan kontra untuk menggunakan satu atau lain. Apa pro dan kontra untuk kedua notasi ini?
Upaya saya untuk menjawab pertanyaan ini adalah sepertinya komunitas statistik menyukai notasi pertama dan komunitas ilmu komputer menyukai notasi kedua.
- Notasi pertama dapat dijelaskan dengan istilah "probabilitas", karena fungsi logistik mengubah angka riil ke interval 0,1.
- Dan notasi kedua lebih ringkas dan lebih mudah dibandingkan dengan kehilangan engsel atau kehilangan 0-1.
Apakah saya benar? Ada wawasan lain?
Jawaban:
Versi singkat
Versi panjang
Yang menyenangkan tentang pemodelan matematika adalah fleksibel. Ini memang fungsi kerugian yang setara, tetapi mereka berasal dari model mendasar data yang sangat berbeda.
Formula 1
Notasi pertama berasal dari model probabilitas Bernoulli untuk , yang secara konvensional didefinisikan pada { 0 , 1 } . Dalam model ini, hasil / label / kelas / prediksi diwakili oleh variabel random Y yang mengikuti B e r n o u l l i ( p ) distribusi. Karena itu kemungkinannya adalah: P ( Y = y | p ) = L ( p ; y ) = p yy {0,1} Y Bernoulli(p)
untuk . Menggunakan 0 dan 1 sebagai nilai indikator memungkinkan kita mengurangi fungsi piecewise di paling kanan untuk ekspresi ringkas.p∈[0,1]
Seperti yang telah Anda tunjukkan, Anda dapat menautkanY ke matriks data input dengan membiarkan logit p = β T x . Dari sini, manipulasi aljabar langsung menunjukkan bahwa log L ( p ; y ) sama dengan L pertama ( y , β T x ) dalam pertanyaan Anda (petunjuk: ( y - 1 ) = - ( 1 - y ) ). Jadi meminimalkan log-loss lebih dari { 0 ,x logitp = βTx logL (p;y) L ( y, βTx ) ( y- 1 ) = - ( 1 - y) setara dengan estimasi kemungkinan maksimum model Bernoulli.{ 0 , 1 }
Formulasi ini juga merupakan kasus khusus dari model linier umum , yang dirumuskan sebagai untuk fungsi g yang dapat dibalik, dapat dibedakan g dan distribusi D dalam keluarga eksponensial .Y∼ D ( θ ) , g ( Y) = βTx g D
Formula 2
Sebenarnya .. Saya tidak terbiasa dengan Formula 2. Namun, mendefinisikan pada { - 1 , 1 } adalah standar dalam perumusan mesin vektor dukungan . Menyesuaikan SVM sesuai dengan memaksimalkan maks ( { 0 , 1 - y β T x } ) + λ ‖ β ‖ 2 .y { - 1 , 1 }
sumber
Saya pikir @ssdecontrol punya jawaban yang sangat bagus. Saya hanya ingin menambahkan beberapa komentar untuk rumus 2 untuk pertanyaan saya sendiri.
Alasan orang menyukai formulasi ini adalah karena sangat ringkas, dan menghilangkan "detail interpretasi probabilitas".
sumber