Apa perbedaan antara regresi logistik dan jaringan saraf?

32

Bagaimana kita menjelaskan perbedaan antara regresi logistik dan jaringan saraf untuk audiens yang tidak memiliki latar belakang statistik?

pengguna16789
sumber
7
Adakah yang tidak memiliki latar belakang statistik yang benar-benar ingin tahu? Dan, apa yang merupakan penjelasan perbedaan yang dapat diterima? Mungkin metafora. Tentu saja tidak ada jawaban di bawah ini (sampai saat ini), yang semuanya sepenuhnya kehilangan persyaratan "tanpa latar belakang".
rolando2
3
T: "Bagaimana kami menjelaskan perbedaan antara regresi logistik dan jaringan saraf dengan audiens yang tidak memiliki latar belakang statistik?" A: Pertama, Anda harus memberi mereka latar belakang dalam statistik.
Firebug
2
Saya tidak melihat alasan mengapa ini tidak harus tetap terbuka. Kita tidak perlu mengambil "jelaskan ... tidak ada latar belakang dalam statistik" secara harfiah. Adalah umum untuk meminta penjelasan yang bisa digunakan untuk 'anak berusia 5 tahun' atau 'nenekmu'. Ini hanya cara sehari-hari untuk meminta jawaban non- (atau setidaknya kurang ) teknis. Untuk membuatnya lebih eksplisit, jawaban selalu berusaha untuk memenuhi beberapa kendala secara bersamaan, seperti akurasi & singkatnya; di sini kami menambahkan meminimalkan bagaimana teknisnya. Tidak ada alasan kami tidak dapat memiliki pertanyaan mencari penjelasan yang kurang teknis tentang perbedaan b / t LR & ANNs.
gung - Reinstate Monica
2
@mbq Sangat lucu bahwa pada bulan November 2012 adalah mungkin untuk menggambarkan jaringan saraf sebagai usang.
littleO
2
@ SedikitO Ini masih berdiri; bandingkan NNs'18 dengan NNs'12 dan Anda akan melihat kemajuan datang dari menghilangkan kemiripan dengan jaringan aktual dan neuron aktual, alih-alih melangkah lebih jauh ke dalam ansambel operasi aljabar dengan optimasi stokastik. Namun yang pasti, ternyata merek dagang NN terbukti sangat kuat sehingga akan hidup lama dan makmur, terlepas dari apa artinya.

Jawaban:

27

Saya berasumsi Anda sedang memikirkan apa yang dulu, dan mungkin masih disebut sebagai 'multilayer perceptrons' dalam pertanyaan Anda tentang jaringan saraf. Jika demikian maka saya akan menjelaskan semuanya dalam hal fleksibilitas tentang bentuk batas keputusan sebagai fungsi dari variabel penjelas. Khususnya, untuk audiens ini, saya tidak akan menyebutkan fungsi tautan / peluang log dll. Tetap dengan gagasan bahwa probabilitas suatu peristiwa sedang diprediksi berdasarkan beberapa pengamatan.

Berikut urutan yang mungkin:

  • Pastikan mereka tahu probabilitas yang diprediksi, secara konseptual. Tunjukkan sebagai fungsi dari satu variabel dalam konteks beberapa data yang dikenal. Jelaskan konteks keputusan yang akan dibagikan oleh regresi logistik dan jaringan saraf.
  • Mulai dengan regresi logistik. Menyatakan bahwa itu adalah kasus linier tetapi menunjukkan linieritas dari batas keputusan yang dihasilkan menggunakan panas atau plot kontur probabilitas keluaran dengan dua variabel penjelas.
  • Perhatikan bahwa dua kelas mungkin tidak dipisahkan dengan baik oleh batas yang mereka lihat dan memotivasi model yang lebih fleksibel untuk membuat batas yang lebih melengkung. Jika perlu tunjukkan beberapa data yang akan dibedakan dengan baik dengan cara ini. (Inilah sebabnya mengapa Anda mulai dengan 2 variabel)
  • Perhatikan bahwa Anda dapat mulai menyulitkan model linier asli dengan ketentuan tambahan, misalnya kuadrat atau transformasi lainnya, dan mungkin menunjukkan batas-batas yang dihasilkannya.
  • Tetapi kemudian buang ini, amati bahwa Anda tidak tahu sebelumnya apa bentuk fungsi seharusnya dan Anda lebih suka mempelajarinya dari data. Sama seperti mereka menjadi antusias tentang hal ini, perhatikan ketidakmungkinan ini secara umum lengkap, dan sarankan agar Anda dengan senang hati mengasumsikan bahwa hal itu setidaknya harus 'halus' daripada 'berombak', tetapi ditentukan oleh data. (Tegaskan bahwa mereka mungkin sudah memikirkan hanya batas-batas yang halus, dengan cara yang sama seperti mereka berbicara prosa sepanjang hidup mereka).
  • Tunjukkan output dari model aditif umum di mana probabilitas output adalah fungsi gabungan dari pasangan variabel asli dan bukan kombinasi aditif sejati - ini hanya untuk tujuan demonstrasi. Yang penting, menyebutnya lebih halus karena itu bagus dan umum dan menggambarkan hal-hal secara intuitif. Tunjukkan batas keputusan non-linear dalam gambar seperti sebelumnya.
  • Perhatikan bahwa ini (saat ini anonim) lebih halus memiliki parameter kelancaran yang mengontrol seberapa lancar itu sebenarnya, merujuk hal ini secara sepintas seperti keyakinan sebelumnya tentang kelancaran fungsi yang mengubah variabel penjelas menjadi probabilitas yang diprediksi. Mungkin menunjukkan konsekuensi dari pengaturan kelancaran yang berbeda pada batas keputusan.
  • Sekarang perkenalkan jaring saraf sebagai diagram. Tunjukkan bahwa lapisan kedua hanyalah model regresi logistik, tetapi juga tunjukkan transformasi non-linear yang terjadi pada unit tersembunyi. Ingatkan hadirin bahwa ini hanyalah fungsi lain dari input ke output yang akan non-linear dalam batas keputusannya.
  • Perhatikan bahwa ia memiliki banyak parameter dan beberapa dari mereka perlu dibatasi untuk membuat batas keputusan yang lancar - perkenalkan kembali gagasan nomor yang mengontrol kelancaran sebagai nomor yang sama (secara konseptual) yang membuat parameter terikat bersama-sama dan menjauh dari nilai ekstrim. Perhatikan juga bahwa semakin banyak unit tersembunyi yang dimilikinya, semakin banyak jenis bentuk fungsional yang dapat disadari. Untuk mempertahankan intuisi, bicarakan unit tersembunyi dalam hal fleksibilitas dan batasan parameter dalam hal kelancaran (terlepas dari kecerobohan matematis dari karakterisasi ini)
  • Kemudian mengejutkan mereka dengan mengklaim karena Anda masih tidak tahu bentuk fungsional sehingga Anda ingin menjadi sangat fleksibel dengan menambahkan unit tersembunyi yang jumlahnya tak terbatas. Biarkan ketidakmungkinan praktis tenggelam sedikit. Kemudian amati bahwa batasan ini dapat diambil dalam matematika, dan tanyakan (secara retoris) seperti apa rupa itu.
  • Jawab bahwa itu akan menjadi lebih halus lagi (proses Gaussian, seperti yang terjadi; Neal, 1996, tetapi detail ini tidak penting), seperti yang mereka lihat sebelumnya. Perhatikan bahwa ada lagi kuantitas yang mengontrol kelancaran tetapi tidak ada parameter khusus lainnya (terintegrasi, bagi mereka yang peduli tentang hal semacam ini).
  • Menyimpulkan bahwa jaringan saraf adalah implementasi khusus, terbatas secara implisit, dari smoothers biasa, yang merupakan non-linear, belum tentu ekstensi tambahan dari model regresi logistik. Kemudian lakukan dengan cara lain, menyimpulkan bahwa regresi logistik setara dengan model jaringan saraf atau lebih halus dengan parameter perataan diatur ke 'ekstra ekstra halus' yaitu linear.

Keuntungan dari pendekatan ini adalah Anda tidak harus benar-benar masuk ke detail matematika untuk memberikan ide yang benar. Bahkan mereka tidak harus memahami regresi logistik atau jaringan saraf yang sudah memahami persamaan dan perbedaan.

Kelemahan dari pendekatan ini adalah Anda harus membuat banyak gambar, dan sangat menahan godaan untuk turun ke dalam aljabar untuk menjelaskan sesuatu.

conjugateprior
sumber
14

Untuk ringkasan yang lebih sederhana:

Regresi logistik: Bentuk paling sederhana dari Jaringan Saraf Tiruan, yang menghasilkan batas keputusan yang merupakan garis lurus

masukkan deskripsi gambar di sini

Neural Networks: Superset yang mencakup regresi logistik dan juga pengklasifikasi lain yang dapat menghasilkan batas keputusan yang lebih kompleks.

masukkan deskripsi gambar di sini

(catatan: Saya mengacu pada regresi logistik "biasa", tanpa bantuan kernel integral)

(referensi: kursus deeplearning.ai oleh Andrew Ng, "Regresi logistik sebagai jaringan saraf" dan "Klasifikasi data Planar dengan satu lapisan tersembunyi")

Eusebio Rufian-Zilbermann
sumber
1
Dari semua jawaban saat ini saya pikir ini adalah yang paling realistis dekat dengan menjelaskan konsep kepada seseorang tanpa latar belakang statistik.
Firebug
1
Jadi pengklasifikasi regresi logistik adalah jaringan saraf? Itu sangat masuk akal.
Björn Lindqvist
8

Saya akan menjawab pertanyaan itu secara literal: Seseorang tanpa latar belakang statistik. Dan saya tidak akan mencoba memberi orang itu latar belakang dalam statistik. Misalnya, Anda harus menjelaskan perbedaannya kepada CEO suatu perusahaan atau sesuatu seperti itu.

Jadi: Regresi logistik adalah alat untuk memodelkan variabel kategori dalam hal variabel lain. Ini memberi Anda cara untuk mengetahui bagaimana perubahan dalam masing-masing variabel "lain" memengaruhi peluang hasil yang berbeda di variabel pertama. Outputnya cukup mudah diinterpretasikan.

Jaringan saraf adalah seperangkat metode untuk membiarkan komputer mencoba belajar dari contoh dengan cara yang secara samar menyerupai cara manusia belajar tentang berbagai hal. Mungkin menghasilkan model yang merupakan prediktor yang baik, tetapi mereka biasanya jauh lebih buram daripada yang dari regresi logistik.

Peter Flom - Pasang kembali Monica
sumber
5
+1 Ini adalah upaya awal yang baik untuk menghadapi tantangan awal dengan memberikan penjelasan yang dapat dipahami oleh orang awam, namun cukup jelas dan akurat.
whuber
2
Anda harus menjelaskan apa itu "peluang", "variabel", "peluang". Juga, Jaringan Syaraf Tiruan semata - mata terinspirasi oleh jaringan syaraf nyata. Otak kita tidak bisa belajar melalui propagasi balik sejauh yang kita tahu. Jadi ya, itu sebagian besar istilah keren untuk konsep yang relatif disederhanakan. Juga, regresi logistik adalah suatu bentuk jaringan saraf, jadi ada juga itu.
Firebug
7

Saya diajari bahwa Anda dapat menganggap jaringan saraf (dengan fungsi aktivasi logistik) sebagai rata-rata tertimbang dari fungsi logit, dengan bobot yang diperkirakan sendiri. Dengan memilih sejumlah besar log, Anda dapat memuat semua bentuk fungsional. Ada beberapa intuisi grafis di posting blog Econometric Sense .

Dimitriy V. Masterov
sumber
6

Jawaban lainnya bagus. Saya hanya akan menambahkan beberapa gambar yang menunjukkan bahwa Anda dapat memikirkan regresi logistik dan regresi logistik multi-kelas (alias maksimal, regresi logistik multinomial, regresi softmax, maksimum entropy classifier) ​​sebagai arsitektur khusus jaringan saraf.

Dari Sebastian Raschka, Universitas Negeri Michigan, di KDnuggets :

masukkan deskripsi gambar di sini


Beberapa ilustrasi untuk regresi logistik multi-kelas:

masukkan deskripsi gambar di sini

Ilustrasi serupa diambil dari http://www.deeplearningbook.org/ bab 1:

masukkan deskripsi gambar di sini

Dan satu lagi dari tutorial TensorFlow :

masukkan deskripsi gambar di sini

Misalnya dalam Caffe , Anda akan menerapkan regresi logistik sebagai berikut :

masukkan deskripsi gambar di sini

Franck Dernoncourt
sumber
2
Jadi, apakah propagasi balik pada jaringan saraf seperti itu menghitung bobot yang sama dengan regresi logistik?
Mitch
1
@ Mitch - Saya mungkin terlambat untuk berkontribusi. Salah satu perbedaan utama adalah bahwa untuk regresi logistik seseorang menggunakan mle untuk mendapatkan koefisien. Intinya itu adalah pilihan fungsi kesalahan atau kerugian tertentu. Untuk jaring saraf, fungsi kerugian adalah salah satu pilihan. Jadi dengan kerugian yang benar fn (saya pikir dari atas kepala saya itu adalah norma L ^ 2 standar) inilah masalahnya.
aginensky
Jadi regresi logistik dapat dirumuskan persis seperti ADALINE (jaringan neural lapisan tunggal yang menggunakan batch / stochastic gradient descent), dengan satu-satunya perbedaan utama adalah fungsi aktivasi diubah menjadi sigmoid alih-alih linear, dan fungsi prediksi berubah menjadi> = 0,5 dengan 0,1 label, bukan> = 0 dengan -1,1 label. Lain sangat disukai, tetapi perbedaan opsional adalah mengubah fungsi biaya dari RSS ke fungsi biaya logistik karena aktivasi sigmoid menyebabkan RSS menjadi non-cembung sehingga RSS dapat terjebak dalam minimas lokal.
Austin
5

Saya akan menggunakan contoh masalah rumit tapi konkret yang dipahami penonton. Gunakan simpul tersembunyi yang interpretasinya tidak terlatih, tetapi memiliki makna tertentu.

64×12

Regresi linier menentukan seberapa bagus memiliki ksatria putih pada h4. Mungkin tidak jelas bahwa itu baik sama sekali, tetapi jika pada h4 itu tidak ditangkap, yang mungkin melebihi pertimbangan lainnya. Regresi linier mungkin memulihkan nilai kasar kepingan, dan lebih baik meletakkan kepingan Anda di tengah papan, dan di sisi lawan papan. Regresi linier tidak dapat menilai kombinasi, seperti bahwa ratu Anda pada b2 tiba-tiba lebih berharga jika raja lawan berada pada a1.

Sebuah jaringan saraf dapat memiliki simpul tersembunyi untuk konsep, seperti "keuntungan material," "keselamatan raja hitam," "kontrol pusat," "keduanya rooks pada file-d," "ratu pion rook terisolasi," atau "uskup mobilitas." Beberapa di antaranya dapat diperkirakan hanya dari input papan, sementara yang lain mungkin harus berada di lapisan tersembunyi kedua atau lambat. Jaringan saraf dapat menggunakan ini sebagai input untuk evaluasi posisi akhir. Konsep-konsep ini membantu seorang ahli untuk menilai suatu posisi, sehingga jaringan saraf harus mampu melakukan penilaian yang lebih akurat daripada regresi linier. Namun, dibutuhkan lebih banyak pekerjaan untuk membuat jaringan saraf karena Anda harus memilih strukturnya dan memiliki lebih banyak parameter untuk dilatih.

Douglas Zare
sumber