Asumsikan secara umum bahwa Anda memutuskan untuk mengambil model formulir
P( y= 1 | X= x ) = h ( x ; Θ )
untuk beberapa parameter . Maka Anda cukup menuliskan kemungkinan untuk itu, yaituΘ
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , ysaya= 1P( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , ysaya= 0P( y= 0 | x = x ; Θ )
yang sama dengan
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , ysaya= 1P( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , ysaya= 0( 1 - P( y= 1 | x = x ; Θ ) )
Sekarang Anda telah memutuskan untuk 'berasumsi' (model)
P( y= 1 | X= x ) = σ( Θ0+ Θ1x )
di mana
σ( z) = 1 / ( 1 + e- z)
jadi Anda hanya menghitung rumus untuk kemungkinan dan melakukan beberapa jenis algoritma optimasi untuk menemukan , misalnya, metode newton atau metode berbasis gradien lainnya.argmaxΘL ( Θ )
Perhatikan bahwa kadang-kadang, orang mengatakan bahwa ketika mereka melakukan regresi logistik mereka tidak memaksimalkan kemungkinan (seperti yang kita / Anda lakukan di atas) tetapi mereka meminimalkan fungsi kerugian
l ( Θ ) = - ¢i = 1Nysayacatatan( P( Ysaya= 1 | X= x ; Θ ) ) + ( 1 - ysaya) log( P( Ysaya= 0 | X= x ; Θ ) )
tetapi perhatikan bahwa .- log( L ( Θ ) ) = l ( Θ )
Ini adalah pola umum dalam Pembelajaran Mesin: Sisi praktis (meminimalkan fungsi kerugian yang mengukur seberapa 'salah' model heuristik) sebenarnya sama dengan 'sisi teoretis' (pemodelan secara eksplisit dengan simbol- , yang memaksimalkan jumlah statistik seperti kemungkinan) dan pada kenyataannya, banyak model yang tidak terlihat seperti probabilistik (misalnya SVM) dapat dipahami kembali dalam konteks probabilistik dan pada kenyataannya adalah maksimalisasi kemungkinan.P
sumber