Saya pikir saya memiliki beberapa kebingungan mendasar tentang bagaimana fungsi dalam regresi bekerja (atau mungkin hanya berfungsi secara keseluruhan).
Bagaimana fungsi h (x) menghasilkan kurva yang terlihat di sebelah kiri gambar?
Saya melihat bahwa ini adalah plot dari dua variabel tetapi kemudian dua variabel ini (x1 & x2) juga merupakan argumen dari fungsi itu sendiri. Saya tahu fungsi standar dari satu peta variabel ke satu output tetapi fungsi ini jelas tidak melakukan itu - dan saya tidak sepenuhnya yakin mengapa.
Intuisi saya adalah bahwa kurva biru / merah muda tidak benar-benar diplot pada grafik ini, melainkan merupakan representasi (lingkaran dan X) yang dipetakan ke nilai dalam dimensi berikutnya (ke-3) grafik. Apakah alasan ini salah dan apakah saya hanya melewatkan sesuatu? Terima kasih atas wawasan / intuisi.
Jawaban:
Ini adalah contoh overfitting pada kursus Coursera pada ML oleh Andrew Ng dalam kasus model klasifikasi dengan dua fitur , di mana nilai sebenarnya dilambangkan dengan × dan ∘ , dan batas keputusannya adalah tepatnya disesuaikan dengan pelatihan yang ditetapkan melalui penggunaan istilah polinomial tingkat tinggi.(x1,x2) × ∘,
Masalah yang dicoba diilustrasikan berkaitan dengan fakta bahwa, meskipun garis keputusan batas (garis lengkung berwarna biru) tidak salah mengklasifikasikan contoh, kemampuannya untuk menggeneralisasi dari set pelatihan akan dikompromikan. Andrew Ng kemudian menjelaskan bahwa regularisasi dapat mengurangi efek ini, dan menggambar kurva magenta sebagai batas keputusan yang kurang ketat pada set pelatihan, dan lebih mungkin untuk digeneralisasi.
Sehubungan dengan pertanyaan spesifik Anda:
Tidak ada ketinggian (dimensi ketiga): ada dua kategori, dan ∘ ) , dan garis keputusan menunjukkan bagaimana model memisahkannya. Dalam model yang lebih sederhana(× ∘),
batas keputusan akan linear.
Mungkin Anda ada dalam pikiran seperti ini, misalnya:
Namun, perhatikan bahwa ada fungsi dalam hipotesis - aktivasi logistik dalam pertanyaan awal Anda. Jadi untuk setiap nilai x 1 dan x 2 fungsi polinomial mengalami dan "aktivasi" (seringkali non-linear, seperti dalam fungsi sigmoid seperti di OP, meskipun tidak harus (misalnya RELU)). Sebagai keluaran terbatas, aktivasi sigmoid cocok untuk interpretasi probabilistik: ide dalam model klasifikasi adalah bahwa pada ambang tertentu output akan diberi label × ( atau ∘ ) . Secara efektif, output terus menerus akan tergencet ke dalam biner ( 1 ,g(⋅) x1 x2 × ( ∘). (1,0) output.
Bergantung pada bobot (atau parameter) dan fungsi aktivasi, setiap titik dalam bidang fitur akan dipetakan ke kategori × atau ∘ . Pelabelan ini mungkin benar atau tidak benar: mereka akan benar ketika titik-titik dalam sampel ditarik oleh × dan ∘ pada bidang dalam gambar pada OP sesuai dengan label yang diprediksi. Batas antara wilayah pesawat berlabel × dan wilayah yang berdekatan berlabel ∘ . Mereka dapat berupa garis, atau beberapa garis yang mengisolasi "pulau" (lihat sendiri bermain dengan aplikasi ini oleh Tony Fischetti(x1,x2) × ∘ × ∘ × ∘ bagian darientri blog ini di R-blogger ).
Perhatikan entri di Wikipedia tentang batas keputusan :
Bergabung dengan beberapa neuron, hyperplanes yang terpisah ini dapat ditambahkan dan dikurangi menjadi bentuk yang berubah-ubah:
Ini menghubungkan ke teorema aproksimasi universal .
sumber
Kami memiliki beberapa ahli matematika tugas berat yang menjawab pertanyaan ini. Saya belum pernah melihat diagram seperti yang Anda gambarkan di sini, dengan nilai untuk prediktor X1 dan X2 dan garis 'batas keputusan' yang memisahkan positif yang diprediksi dari negatif yang diprediksi. (atau itu peta hasil yang diprediksi vs yang sebenarnya?) Tapi ini berguna --- selama Anda hanya memiliki dua prediktor yang ingin Anda petakan.
Tampaknya garis magenta memisahkan positif yang diprediksi dari negatif yang diprediksi, sedangkan garis biru gelap mencakup semua positif. Ini biasanya merupakan kasus dalam regresi logistik: model akan memprediksi hasil dengan benar untuk kurang dari 100% kasus (dan akan memprediksi beberapa positif palsu dan / atau negatif palsu).
Dimungkinkan untuk menjalankan regresi logistik dan membuat prosedur menghasilkan fungsi h (x) untuk setiap kasus individu dalam dataset. Ini akan menghasilkan skor kecenderungan untuk setiap subjek, dari 0 ke 1, yang memberikan kemungkinan atau probabilitas hasil positif untuk setiap subjek berdasarkan variabel prediktor subjek, berdasarkan model regresi logistik dengan menggunakan semua subjek. Mereka yang berada di batas skor kecenderungan 0,5 atau di atas diperkirakan memiliki hasil, dan mereka yang di bawah 0,5 diperkirakan tidak memiliki hasil. Tetapi Anda dapat menyesuaikan tingkat cutoff ini sesuai keinginan Anda, misalnya untuk membuat model prediksi diagnostik dari beberapa hasil berdasarkan semua variabel input yang dimasukkan dalam analisis regresi logistik Anda. Anda dapat mengatur cutoff pada 0,3 misalnya. Anda kemudian dapat melakukan tabel 2X2 hasil prediksi-vs-aktual, dan menentukan sensitivitas, spesifisitas, tingkat positif palsu dan tingkat negatif palsu model berdasarkan tingkat cutoff ini. Ini memberikan lebih banyak informasi dan juga membebaskan Anda dari batas 2 variabel yang digunakan dalam grafik Anda. Anda dapat menggunakan sebanyak mungkin prediktor yang sesuai dengan model dan masih membuat tabel 2X2 untuk hasil aktual-vs-prediksi. Karena regresi logistik menggunakan hasil kategoris (ya-tidak), setiap sel dalam tabel 2X2 hanyalah hitungan dari subyek yang memenuhi kriteria baris dan kolom. Anda dapat menggunakan sebanyak mungkin prediktor yang sesuai dengan model dan masih membuat tabel 2X2 untuk hasil aktual-vs-prediksi. Karena regresi logistik menggunakan hasil kategoris (ya-tidak), setiap sel dalam tabel 2X2 hanyalah hitungan dari subyek yang memenuhi kriteria baris dan kolom. Anda dapat menggunakan sebanyak mungkin prediktor yang sesuai dengan model dan masih membuat tabel 2X2 untuk hasil aktual-vs-prediksi. Karena regresi logistik menggunakan hasil kategoris (ya-tidak), setiap sel dalam tabel 2X2 hanyalah hitungan dari subyek yang memenuhi kriteria baris dan kolom.
Pada grafik yang Anda berikan, mungkin diasumsikan cutoff 0,5. Ini adalah standar umum untuk perangkat lunak. Jika Anda menyesuaikannya lebih tinggi (misalnya 0,65), itu mungkin termasuk semua O di dalam garis tetapi Anda juga akan memiliki beberapa positif palsu (X yang menurutnya harus O) yang akan diprediksi oleh model untuk memiliki hasil dari bunga. (atau sesuaikan skor cutoff lebih rendah dan memiliki lebih banyak negatif palsu).
Saya harap ini membantu.
sumber