Memahami Regresi Logistik dan kemungkinannya

12

Bagaimana cara estimasi parameter / Pelatihan regresi logistik bekerja? Saya akan mencoba untuk menempatkan apa yang saya dapatkan sejauh ini.

  1. Outputnya adalah y dari fungsi logistik yang berbentuk probabilitas tergantung pada nilai x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Untuk satu dimensi yang disebut Peluang didefinisikan sebagai berikut:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. Sekarang menambahkan logfungsi untuk mendapatkan W_0 dan W_1 dalam bentuk linear:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Sekarang ke bagian masalah Menggunakan kemungkinan (Big X adalah y) Bisakah ada yang tahu mengapa kita mempertimbangkan probabilitas y = 1 dua kali? sejak:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

dan bagaimana mendapatkan nilai ω darinya?

Mesin
sumber

Jawaban:

10

Asumsikan secara umum bahwa Anda memutuskan untuk mengambil model formulir

P(y=1|X=x)=h(x;Θ)

untuk beberapa parameter . Maka Anda cukup menuliskan kemungkinan untuk itu, yaituΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

yang sama dengan

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Sekarang Anda telah memutuskan untuk 'berasumsi' (model)

P(y=1|X=x)=σ(Θ0+Θ1x)

di mana

σ(z)=1/(1+ez)

jadi Anda hanya menghitung rumus untuk kemungkinan dan melakukan beberapa jenis algoritma optimasi untuk menemukan , misalnya, metode newton atau metode berbasis gradien lainnya.argmaxΘL(Θ)

Perhatikan bahwa kadang-kadang, orang mengatakan bahwa ketika mereka melakukan regresi logistik mereka tidak memaksimalkan kemungkinan (seperti yang kita / Anda lakukan di atas) tetapi mereka meminimalkan fungsi kerugian

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

tetapi perhatikan bahwa .log(L(Θ))=l(Θ)

Ini adalah pola umum dalam Pembelajaran Mesin: Sisi praktis (meminimalkan fungsi kerugian yang mengukur seberapa 'salah' model heuristik) sebenarnya sama dengan 'sisi teoretis' (pemodelan secara eksplisit dengan simbol- , yang memaksimalkan jumlah statistik seperti kemungkinan) dan pada kenyataannya, banyak model yang tidak terlihat seperti probabilistik (misalnya SVM) dapat dipahami kembali dalam konteks probabilistik dan pada kenyataannya adalah maksimalisasi kemungkinan.P

Fabian Werner
sumber
@Erner terima kasih atas jawaban Anda. Tetapi saya masih perlu sedikit klarifikasi.1 dapatkah Anda jelaskan apa yang tinggal 2 dalam definisi L ( θ ) karena sejauh saya memahaminya saya diintervensi dalam kasus y i = 1 . dan bagaimana bisa mendapatkan nilai ω 1 dan ω 0 terima kasih banyak atas bantuan Anda! L(θ)yi=1ω1ω0
Mesin
@ Engine: 'pi' besar adalah produk ... seperti Sigma besar adalah penjumlahan ... apakah Anda mengerti atau Anda perlu klarifikasi lebih lanjut tentang itu juga? Pada pertanyaan kedua: Katakanlah kita ingin meminimalkan fungsi f ( x ) = x 2 dan kita mulai dari x = 3 tetapi mari kita asumsikan bahwa kita tidak tahu / tidak bisa mengekspresikan / tidak dapat memvisualisasikan f karena rumit . Sekarang turunan dari f adalah f = 2 x . Menariknya jika kita benar dari minimum x = 0Σf(x)=x2x=3fff=2xx=0itu menunjuk ke kanan dan jika kita dibiarkan itu menunjuk ke kiri. Secara matematis, turunan menunjuk ke arah 'pendakian terkuat'
Fabian Werner
@ Engine: Dalam lebih banyak dimensi Anda mengganti turunan dengan gradien, yaitu Anda mulai pada titik acak dan menghitung gradien f pada x dan jika Anda ingin memaksimalkan maka titik berikutnya x 1 adalah x 1 = x 0 + f ( x 0 ) . Kemudian Anda menghitung f ( x 1 ) dan Anda x berikutnya adalah x 2 = x 1 + f ( x 1x0fxx1x1=x0+f(x0)f(x1)x dan sebagainya. Ini disebut gradient ascend / descent dan merupakan teknik yang paling umum dalam memaksimalkan suatu fungsi. Sekarang Anda melakukannya dengan L ( Θ ) atau dengan notasi Anda L ( ω ) untuk menemukan ω yang memaksimalkan Lx2=x1+f(x1)L(Θ)L(ω)ωL
Fabian Werner
y=1ωωy=1y=1 y=0
Fabian Werner
8

,yi=1,yi=0

ωω

Maarten Buis
sumber
yi=0ω
i=1,y=1Ni=1Ny=1
Ada banyak kemungkinan algoritma untuk memaksimalkan fungsi kemungkinan. Yang paling umum, metode Newton-Raphson , memang melibatkan menghitung turunan pertama dan kedua.
Maarten Buis