Bagaimana Regresi Logistik dapat menghasilkan kurva yang bukan fungsi tradisional?

15

Saya pikir saya memiliki beberapa kebingungan mendasar tentang bagaimana fungsi dalam regresi bekerja (atau mungkin hanya berfungsi secara keseluruhan).

Bagaimana fungsi h (x) menghasilkan kurva yang terlihat di sebelah kiri gambar?

Saya melihat bahwa ini adalah plot dari dua variabel tetapi kemudian dua variabel ini (x1 & x2) juga merupakan argumen dari fungsi itu sendiri. Saya tahu fungsi standar dari satu peta variabel ke satu output tetapi fungsi ini jelas tidak melakukan itu - dan saya tidak sepenuhnya yakin mengapa.

masukkan deskripsi gambar di sini

Intuisi saya adalah bahwa kurva biru / merah muda tidak benar-benar diplot pada grafik ini, melainkan merupakan representasi (lingkaran dan X) yang dipetakan ke nilai dalam dimensi berikutnya (ke-3) grafik. Apakah alasan ini salah dan apakah saya hanya melewatkan sesuatu? Terima kasih atas wawasan / intuisi.

Sam
sumber
8
Perhatikan label sumbu, perhatikan bahwa tidak ada yang diberi label . y
Matthew Drury
3
Apa yang akan menjadi "fungsi tradisional"?
whuber
@matthewDrury Saya mengerti itu, dan ini menjelaskan X / Os 2D. Saya bertanya dari mana kurva diplot itu berasal
Sam

Jawaban:

19

Ini adalah contoh overfitting pada kursus Coursera pada ML oleh Andrew Ng dalam kasus model klasifikasi dengan dua fitur , di mana nilai sebenarnya dilambangkan dengan × dan , dan batas keputusannya adalah tepatnya disesuaikan dengan pelatihan yang ditetapkan melalui penggunaan istilah polinomial tingkat tinggi.(x1,x2)×,

Masalah yang dicoba diilustrasikan berkaitan dengan fakta bahwa, meskipun garis keputusan batas (garis lengkung berwarna biru) tidak salah mengklasifikasikan contoh, kemampuannya untuk menggeneralisasi dari set pelatihan akan dikompromikan. Andrew Ng kemudian menjelaskan bahwa regularisasi dapat mengurangi efek ini, dan menggambar kurva magenta sebagai batas keputusan yang kurang ketat pada set pelatihan, dan lebih mungkin untuk digeneralisasi.


Sehubungan dengan pertanyaan spesifik Anda:

Intuisi saya adalah bahwa kurva biru / merah muda tidak benar-benar diplot pada grafik ini, melainkan merupakan representasi (lingkaran dan X) yang dipetakan ke nilai dalam dimensi berikutnya (ke-3) grafik.

Tidak ada ketinggian (dimensi ketiga): ada dua kategori, dan ) , dan garis keputusan menunjukkan bagaimana model memisahkannya. Dalam model yang lebih sederhana(×),

hθ(x)=g(θ0+θ1x1+θ2x2)

batas keputusan akan linear.


Mungkin Anda ada dalam pikiran seperti ini, misalnya:

5+2x1.3x21.2x2y+1x2y2+3x2y3

enter image description here

Namun, perhatikan bahwa ada fungsi dalam hipotesis - aktivasi logistik dalam pertanyaan awal Anda. Jadi untuk setiap nilai x 1 dan x 2 fungsi polinomial mengalami dan "aktivasi" (seringkali non-linear, seperti dalam fungsi sigmoid seperti di OP, meskipun tidak harus (misalnya RELU)). Sebagai keluaran terbatas, aktivasi sigmoid cocok untuk interpretasi probabilistik: ide dalam model klasifikasi adalah bahwa pada ambang tertentu output akan diberi label × ( atau ) . Secara efektif, output terus menerus akan tergencet ke dalam biner ( 1 ,g()x1x2× ().(1,0) output.

Bergantung pada bobot (atau parameter) dan fungsi aktivasi, setiap titik dalam bidang fitur akan dipetakan ke kategori × atau . Pelabelan ini mungkin benar atau tidak benar: mereka akan benar ketika titik-titik dalam sampel ditarik oleh × dan pada bidang dalam gambar pada OP sesuai dengan label yang diprediksi. Batas antara wilayah pesawat berlabel × dan wilayah yang berdekatan berlabel . Mereka dapat berupa garis, atau beberapa garis yang mengisolasi "pulau" (lihat sendiri bermain dengan aplikasi ini oleh Tony Fischetti(x1,x2)××× bagian darientri blog ini di R-blogger ).

Perhatikan entri di Wikipedia tentang batas keputusan :

Dalam masalah klasifikasi-statistik dengan dua kelas, batas keputusan atau permukaan keputusan adalah permukaan tipis yang membagi ruang vektor yang mendasarinya menjadi dua set, satu untuk setiap kelas. Pengklasifikasi akan mengklasifikasikan semua poin di satu sisi batas keputusan sebagai milik satu kelas dan semua yang di sisi lain sebagai milik kelas lain. Batas keputusan adalah wilayah ruang masalah di mana label output dari penggolong adalah ambigu.

[0,1]),

enter image description here


3

enter image description here

y1=hθ(x)W(Θ)Θ

Bergabung dengan beberapa neuron, hyperplanes yang terpisah ini dapat ditambahkan dan dikurangi menjadi bentuk yang berubah-ubah:

enter image description here

Ini menghubungkan ke teorema aproksimasi universal .

Antoni Parellada
sumber
1
+1 selalu menikmati membaca jawaban Anda. Mungkin lebih baik jika Anda dapat memiliki pesawat keputusan yang bersinggungan dengan plot Anda. untuk menunjukkan beberapa di atas dan beberapa di bawah.
Haitao Du
Terima kasih banyak atas ini. Saya masih merasa seolah-olah saya kehilangan sesuatu yang kecil tentang kurva itu sendiri - apakah ini untuk mengatakan bahwa batas keputusan tidak benar-benar "ditarik" melainkan hanya cara Andrew Ng untuk menunjukkan ambang nilai x1 & x2 yang menyebabkan hipotesis menjadi × atau ∘? Saya pikir beberapa kebingungan saya berasal dari bagaimana kurva itu bisa menjadi fungsi di tempat pertama, tapi saya sekarang menyadari itu bukan.
Sam
1
@AntoniParellada Ini bagus, saya melihat perbedaannya sekarang. Terima kasih banyak atas bantuannya.
Sam
0

Kami memiliki beberapa ahli matematika tugas berat yang menjawab pertanyaan ini. Saya belum pernah melihat diagram seperti yang Anda gambarkan di sini, dengan nilai untuk prediktor X1 dan X2 dan garis 'batas keputusan' yang memisahkan positif yang diprediksi dari negatif yang diprediksi. (atau itu peta hasil yang diprediksi vs yang sebenarnya?) Tapi ini berguna --- selama Anda hanya memiliki dua prediktor yang ingin Anda petakan.
Tampaknya garis magenta memisahkan positif yang diprediksi dari negatif yang diprediksi, sedangkan garis biru gelap mencakup semua positif. Ini biasanya merupakan kasus dalam regresi logistik: model akan memprediksi hasil dengan benar untuk kurang dari 100% kasus (dan akan memprediksi beberapa positif palsu dan / atau negatif palsu).
Dimungkinkan untuk menjalankan regresi logistik dan membuat prosedur menghasilkan fungsi h (x) untuk setiap kasus individu dalam dataset. Ini akan menghasilkan skor kecenderungan untuk setiap subjek, dari 0 ke 1, yang memberikan kemungkinan atau probabilitas hasil positif untuk setiap subjek berdasarkan variabel prediktor subjek, berdasarkan model regresi logistik dengan menggunakan semua subjek. Mereka yang berada di batas skor kecenderungan 0,5 atau di atas diperkirakan memiliki hasil, dan mereka yang di bawah 0,5 diperkirakan tidak memiliki hasil. Tetapi Anda dapat menyesuaikan tingkat cutoff ini sesuai keinginan Anda, misalnya untuk membuat model prediksi diagnostik dari beberapa hasil berdasarkan semua variabel input yang dimasukkan dalam analisis regresi logistik Anda. Anda dapat mengatur cutoff pada 0,3 misalnya. Anda kemudian dapat melakukan tabel 2X2 hasil prediksi-vs-aktual, dan menentukan sensitivitas, spesifisitas, tingkat positif palsu dan tingkat negatif palsu model berdasarkan tingkat cutoff ini. Ini memberikan lebih banyak informasi dan juga membebaskan Anda dari batas 2 variabel yang digunakan dalam grafik Anda. Anda dapat menggunakan sebanyak mungkin prediktor yang sesuai dengan model dan masih membuat tabel 2X2 untuk hasil aktual-vs-prediksi. Karena regresi logistik menggunakan hasil kategoris (ya-tidak), setiap sel dalam tabel 2X2 hanyalah hitungan dari subyek yang memenuhi kriteria baris dan kolom. Anda dapat menggunakan sebanyak mungkin prediktor yang sesuai dengan model dan masih membuat tabel 2X2 untuk hasil aktual-vs-prediksi. Karena regresi logistik menggunakan hasil kategoris (ya-tidak), setiap sel dalam tabel 2X2 hanyalah hitungan dari subyek yang memenuhi kriteria baris dan kolom. Anda dapat menggunakan sebanyak mungkin prediktor yang sesuai dengan model dan masih membuat tabel 2X2 untuk hasil aktual-vs-prediksi. Karena regresi logistik menggunakan hasil kategoris (ya-tidak), setiap sel dalam tabel 2X2 hanyalah hitungan dari subyek yang memenuhi kriteria baris dan kolom.
Pada grafik yang Anda berikan, mungkin diasumsikan cutoff 0,5. Ini adalah standar umum untuk perangkat lunak. Jika Anda menyesuaikannya lebih tinggi (misalnya 0,65), itu mungkin termasuk semua O di dalam garis tetapi Anda juga akan memiliki beberapa positif palsu (X yang menurutnya harus O) yang akan diprediksi oleh model untuk memiliki hasil dari bunga. (atau sesuaikan skor cutoff lebih rendah dan memiliki lebih banyak negatif palsu).
Saya harap ini membantu.

Jerry
sumber