Mengapa ada dua formulasi / notasi kerugian logistik yang berbeda?

23

Saya telah melihat dua jenis formulasi kehilangan logistik. Kita dapat dengan mudah menunjukkan bahwa keduanya identik, satu-satunya perbedaan adalah definisi label .y

Formulasi / notasi 1, :y{0,+1}

L(y,βTx)=ylog(p)(1y)log(1p)

di mana , di mana fungsi logistik memetakan angka nyata hingga 0,1 interval.p=11+exp(βTx)βTx

Formulasi / notasi 2, y{1,+1} :

L(y,βTx)=log(1+exp(yβTx))

Memilih notasi seperti memilih bahasa, ada pro dan kontra untuk menggunakan satu atau lain. Apa pro dan kontra untuk kedua notasi ini?


Upaya saya untuk menjawab pertanyaan ini adalah sepertinya komunitas statistik menyukai notasi pertama dan komunitas ilmu komputer menyukai notasi kedua.

  • Notasi pertama dapat dijelaskan dengan istilah "probabilitas", karena fungsi logistik mengubah angka riil βTx ke interval 0,1.
  • Dan notasi kedua lebih ringkas dan lebih mudah dibandingkan dengan kehilangan engsel atau kehilangan 0-1.

Apakah saya benar? Ada wawasan lain?

Haitao Du
sumber
4
Saya yakin ini sudah diminta beberapa kali. Misalnya stats.stackexchange.com/q/145147/5739
StasK
1
Mengapa Anda mengatakan notasi kedua lebih mudah dibandingkan dengan kehilangan engsel? Hanya karena itu didefinisikan pada alih-alih , atau yang lainnya? { 0 , 1 }{1,1}{0,1}
shadowtalker
1
Saya agak suka simetri bentuk pertama, tetapi bagian liniernya terkubur cukup dalam, jadi bisa jadi sulit untuk dikerjakan.
Matthew Drury
@ssdecontrol silakan periksa angka ini, cs.cmu.edu/~yandongl/loss.html di mana sumbu x , dan sumbu y adalah nilai kerugian. Definisi seperti itu mudah untuk dibandingkan dengan kehilangan 01, kehilangan engsel, dll.yβTx
Haitao Du

Jawaban:

12

Versi singkat

  • iya nih
  • iya nih

Versi panjang

Yang menyenangkan tentang pemodelan matematika adalah fleksibel. Ini memang fungsi kerugian yang setara, tetapi mereka berasal dari model mendasar data yang sangat berbeda.

Formula 1

Notasi pertama berasal dari model probabilitas Bernoulli untuk , yang secara konvensional didefinisikan pada { 0 , 1 } . Dalam model ini, hasil / label / kelas / prediksi diwakili oleh variabel random Y yang mengikuti B e r n o u l l i ( p ) distribusi. Karena itu kemungkinannya adalah: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

untuk . Menggunakan 0 dan 1 sebagai nilai indikator memungkinkan kita mengurangi fungsi piecewise di paling kanan untuk ekspresi ringkas.p[0,1]

Seperti yang telah Anda tunjukkan, Anda dapat menautkan Y ke matriks data input dengan membiarkan logit p = β T x . Dari sini, manipulasi aljabar langsung menunjukkan bahwa log L ( p ; y ) sama dengan L pertama ( y , β T x ) dalam pertanyaan Anda (petunjuk: ( y - 1 ) = - ( 1 - y ) ). Jadi meminimalkan log-loss lebih dari { 0 ,xlogithal=βTxlogL.(hal;y)L.(y,βTx)(y-1)=-(1-y) setara dengan estimasi kemungkinan maksimum model Bernoulli.{0,1}

Formulasi ini juga merupakan kasus khusus dari model linier umum , yang dirumuskan sebagai untuk fungsi g yang dapat dibalik, dapat dibedakan g dan distribusi D dalam keluarga eksponensial .YD(θ), g(Y)=βTxgD

Formula 2

Sebenarnya .. Saya tidak terbiasa dengan Formula 2. Namun, mendefinisikan pada { - 1 , 1 } adalah standar dalam perumusan mesin vektor dukungan . Menyesuaikan SVM sesuai dengan memaksimalkan maks ( { 0 , 1 - y β T x } ) + λ β 2 .y{-1,1}

maks({0,1-yβTx})+λβ2.

(y,β)+λβ2
λβL(y,βTx)
shadowtalker
sumber
py(1p)1y1y
7

Saya pikir @ssdecontrol punya jawaban yang sangat bagus. Saya hanya ingin menambahkan beberapa komentar untuk rumus 2 untuk pertanyaan saya sendiri.

L(y,y^)=log(1+exp(yy^))

Alasan orang menyukai formulasi ini adalah karena sangat ringkas, dan menghilangkan "detail interpretasi probabilitas".

y^yy^

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

masukkan deskripsi gambar di sini

yy^y^βTx

Haitao Du
sumber
Saya mengerti maksud Anda tentang perbandingan yang mudah
shadowtalker