Regresi linear multivariat vs jaringan saraf?

54

Tampaknya mungkin untuk mendapatkan hasil yang mirip dengan jaringan saraf dengan regresi linier multivariat dalam beberapa kasus, dan regresi linier multivariat super cepat dan mudah.

Dalam keadaan apa jaringan saraf dapat memberikan hasil yang lebih baik daripada regresi linier multivariat?

Hugh Perkins
sumber

Jawaban:

28

Neural networks pada prinsipnya dapat memodelkan nonlinier secara otomatis (lihat teorema aproksimasi universal ), yang Anda perlukan untuk memodelkan secara eksplisit menggunakan transformasi (splines dll.) Dalam regresi linier.

Peringatan: godaan untuk berpakaian berlebihan (bahkan) lebih kuat dalam jaringan saraf daripada dalam regresi, karena menambahkan lapisan tersembunyi atau neuron terlihat tidak berbahaya. Jadi ekstra hati-hati untuk melihat kinerja prediksi out-of-sample.

S. Kolassa - Reinstate Monica
sumber
Baik. Saya kira pertanyaan dalam benak saya adalah, sejauh mana saya bisa meniru perilaku serupa dengan menambah data input saya dengan istilah kuadratik dan kubik?
Hugh Perkins
3
Sebenarnya, Anda mungkin dapat memperkirakan NNs dengan regresi yang ditransformasikan dengan tepat dalam regresi linier semaksimal yang Anda inginkan (dan sebaliknya). Praktek yang lebih baik daripada kuadrat dan kubik adalah splines, meskipun - saya sungguh-sungguh merekomendasikan buku teks Harrell "Strategi Pemodelan Regresi".
S. Kolassa - Reinstate Monica
Baik. Apakah masuk akal untuk mengasumsikan bahwa waktu pelatihan akan lebih cepat untuk regresi linier pada data yang diubah, atau akankah waktu pelatihan kurang lebih sama? Apakah solusi untuk regresi linier pada data yang ditransformasi memiliki maksimum global tunggal, atau akankah itu memiliki banyak minimum lokal seperti untuk jaringan saraf? (Sunting: Saya kira tidak peduli bagaimana inputnya ditransformasikan, solusi untuk regresi linier hanyalah pseudoinverse dari matriks desain dikalikan dengan sesuatu-sesuatu dan oleh karena itu selalu unik atau tunggal?)
Hugh Perkins
2
Waktu pelatihan tentu saja akan tergantung pada dimensi input (beberapa / banyak pengamatan, sedikit / banyak prediktor). Regresi linier melibatkan inversi tunggal (pseudo-) (ya, keunikan / singularitas bahkan dengan regresor yang ditransformasi), sedangkan NNs biasanya dilatih dengan cara iteratif, tetapi iterasi tidak melibatkan inversi matriks, sehingga setiap iterasi lebih cepat - Anda biasanya hentikan pelatihan berdasarkan beberapa kriteria yang dirancang untuk menghentikan Anda dari overfitting.
S. Kolassa - Reinstate Monica
1
@ Yamcha: Pemahaman saya tentang teorema aproksimasi universal adalah bahwa dimensi pada prinsipnya tidak penting. (Tentu saja, ini adalah hasil asimptotik. Saya berharap bahwa Anda akan membutuhkan jumlah data yang menghebohkan untuk NN agar lebih baik daripada regresi polinomial yang disesuaikan. Mulai terdengar seperti Deep Learning ...)
S. Kolassa - Reinstate Monica
16

Anda menyebutkan regresi linier. Ini terkait dengan regresi logistik , yang memiliki algoritma optimasi cepat serupa. Jika Anda memiliki batasan pada nilai target, seperti dengan masalah klasifikasi, Anda dapat melihat regresi logistik sebagai generalisasi dari regresi linier.

Jaringan saraf secara ketat lebih umum daripada regresi logistik pada input asli, karena itu sesuai dengan jaringan skip-layer (dengan koneksi yang langsung menghubungkan input dengan output) dengan node tersembunyi.0

Saat Anda menambahkan fitur seperti , ini mirip dengan memilih bobot ke beberapa simpul tersembunyi dalam satu lapisan tersembunyi. Tidak ada korespondensi , karena untuk memodelkan fungsi seperti dengan sigmoids mungkin memerlukan lebih dari satu neuron tersembunyi. Ketika Anda melatih jaringan saraf, Anda membiarkannya menemukan bobot input-ke-tersembunyi sendiri, yang berpotensi menjadi lebih baik. Mungkin juga membutuhkan lebih banyak waktu dan mungkin tidak konsisten. Anda dapat mulai dengan perkiraan regresi logistik dengan fitur tambahan, dan latih bobot input-ke-tersembunyi secara perlahan, dan ini seharusnya lebih baik daripada regresi logistik dengan fitur tambahan pada akhirnya. Tergantung pada masalahnya, waktu pelatihan dapat diabaikan atau dihambat.x311x3

Salah satu strategi menengah adalah memilih sejumlah besar node acak, mirip dengan apa yang terjadi ketika Anda menginisialisasi jaringan saraf, dan memperbaiki bobot input-ke-tersembunyi. Optimalisasi atas bobot * -untuk-output tetap linier. Ini disebut mesin pembelajaran ekstrem . Ini berfungsi setidaknya serta regresi logistik asli.

Douglas Zare
sumber
1
"Salah satu strategi menengah adalah memilih sejumlah besar node acak, mirip dengan apa yang terjadi ketika Anda menginisialisasi jaringan saraf, dan memperbaiki bobot input-ke-tersembunyi. Optimalisasi atas bobot * -untuk-output tetap linear." => maksud Anda bahwa akan ada maksimum global tunggal untuk solusi dalam kasus ini?
Hugh Perkins
1
Untuk pilihan acak umum dari simpul tersembunyi acak, ya.
Douglas Zare
2
konteks pasca-pemberian hebat untuk [LR, LogR, NN, ELM]. Komentar Anda tentang LogR yang menjadi lapisan-lewati NN tampak jelas setelah ditunjukkan tetapi merupakan wawasan yang bagus.
javadba
3

Regresi Linier bertujuan untuk memisahkan data yang dapat dipisahkan secara linier, ya Anda dapat menggunakan polinomial tingkat> tiga tambahan tetapi dengan cara itu Anda mengindikasikan lagi beberapa asumsi tentang data yang Anda miliki sejak Anda menentukan struktur fungsi tujuan. Dalam Neural Net. umumnya Anda memiliki lapisan input yang membuat pemisah linier untuk data yang Anda miliki dan lapisan tersembunyi DAN wilayah yang membatasi beberapa kelas dan lapisan terakhir ATAU semua wilayah ini. Dengan cara itu semua data yang Anda miliki dapat diklasifikasikan dengan cara non linier, juga semua proses ini berjalan dengan bobot yang dipelajari secara internal dan fungsi yang ditentukan. Selain itu meningkatkan nomor fitur untuk Regresi Linier menentang "Kutukan dimensi". Selain itu beberapa aplikasi membutuhkan hasil yang lebih probabilistik daripada angka konstan sebagai output.

erogol
sumber