Pemodelan jaringan saraf secara matematis sebagai model grafis

11

Saya berjuang untuk membuat koneksi matematis antara jaringan saraf dan model grafis.

Dalam model grafis idenya sederhana: distribusi probabilitas memfaktorkan menurut klik dalam grafik, dengan potensi yang biasanya dari keluarga eksponensial.

Apakah ada alasan yang setara untuk jaringan saraf? Bisakah seseorang mengungkapkan distribusi probabilitas atas unit (variabel) dalam mesin Boltzmann Terbatas atau CNN sebagai fungsi energi mereka, atau produk energi antar unit?

Juga, apakah distribusi probabilitas dimodelkan oleh RBM atau jaringan kepercayaan mendalam (misalnya dengan CNN) dari keluarga eksponensial?

Saya berharap menemukan teks yang meresmikan hubungan antara jenis-jenis jaringan saraf modern dan statistik ini dengan cara yang sama seperti yang dilakukan Jordan & Wainwright untuk model grafis dengan Model Grafis, Keluarga Eksponensial dan Inferensi Variasional . Petunjuk apa pun akan bagus.

Amelio Vazquez-Reina
sumber
1
IM (pembenci) O masalah inti di sini adalah bahwa jaringan saraf tidak benar-benar jaringan; mereka praktis memiliki topologi tetap dan dengan demikian memiliki peluang kecil untuk menyimpan informasi apa pun di dalamnya.
Sudahkah Anda melihat pos terbaru ini ?
jerad
@ Jerad Terima kasih, saya belum membaca posting itu. Pertanyaan saya bukan pada bagaimana menggabungkan model-model ini (misalnya seperti ketika Yann mengatakan "using deep nets as factors in an MRF"), tetapi lebih banyak tentang bagaimana melihat jaring yang dalam sebagai grafik faktor probabilitas. Ketika Yann LeCun mengatakan "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", saya tertarik melihat koneksi itu secara matematis.
Amelio Vazquez-Reina
@ MBQ, kami telah melihat beberapa bentuk penyimpanan informasi komponen lapisan tersembunyi, misalnya https://distill.pub/2017/feature-visualization/( Bagaimana jaringan saraf membangun pemahaman mereka tentang gambar ), di mana gambar yang kompleks memiliki objek komponen diwakili oleh node lapisan tersembunyi. Bobot dapat 'mengubah' topologi 'secara non-diskrit. Meskipun saya belum melihatnya, beberapa metode dapat mencakup faktor penyusutan untuk menghilangkan tepi dan karenanya mengubah topologi asli
Vass

Jawaban:

6

Pengantar lain yang baik tentang subjek adalah kursus CSC321 di University of Toronto, dan kursus neuralnets-2012-001 tentang Coursera, keduanya diajarkan oleh Geoffrey Hinton.

Dari video di Belief Nets:

Model grafis

Model grafis awal menggunakan para ahli untuk menentukan struktur grafik dan probabilitas kondisional. Grafik terhubung sedikit, dan fokusnya adalah pada melakukan inferensi yang benar, dan bukan pada pembelajaran (pengetahuan berasal dari para ahli).

Jaringan saraf

Untuk jaring saraf, belajar adalah pusat. Pengkabelan pengetahuan itu tidak keren (OK, mungkin sedikit). Belajar berasal dari mempelajari data pelatihan, bukan dari para ahli. Jaringan saraf tidak bertujuan untuk menafsirkan konektivitas jarang untuk membuat kesimpulan mudah. Namun demikian, ada versi jaringan saraf dari jaring kepercayaan.


Pemahaman saya adalah bahwa jaring kepercayaan biasanya terhubung terlalu padat, dan klik-klik mereka terlalu besar, untuk bisa ditafsirkan. Jaring kepercayaan menggunakan fungsi sigmoid untuk mengintegrasikan input, sedangkan model grafis kontinu biasanya menggunakan fungsi Gaussian. Sigmoid membuat jaringan lebih mudah untuk dilatih, tetapi lebih sulit untuk menafsirkan dalam hal probabilitas. Saya percaya keduanya berada di keluarga eksponensial.

Saya jauh dari ahli dalam hal ini, tetapi catatan kuliah dan video adalah sumber yang bagus.

ostrokach
sumber
1
Selamat datang di situs ini. Kami mencoba membangun repositori permanen untuk informasi statistik berkualitas tinggi dalam bentuk pertanyaan & jawaban. Karenanya, kami waspada terhadap jawaban tautan saja, karena tautannya. Bisakah Anda memposting kutipan lengkap & ringkasan informasi di tautan, kalau-kalau mati?
gung - Reinstate Monica
Ini sangat bagus. Terima kasih telah menambahkan informasi ini & selamat datang di CV.
gung - Reinstate Monica
Saya harus menunjukkan bahwa informasi pada paruh pertama jawaban Anda tidak cukup akurat, yang saya kira tersirat oleh penggunaan "model grafis awal" (harus "sangat sangat awal"). Untuk waktu yang sangat lama, model grafis telah digunakan untuk mempelajari semua aspek arsitekturnya dengan cara yang sama seperti jaringan saraf. Tetapi saran Anda selanjutnya tentang sigmoids menggantikan gaussians dalam grafik faktor menarik!
GuSuku
4

Radford Neal telah melakukan sedikit pekerjaan baik di bidang ini yang mungkin menarik bagi Anda, termasuk beberapa pekerjaan langsung dalam menyamakan model grafis Bayesian dengan jaringan saraf. (Disertasinya tampaknya tentang topik khusus ini.)

Saya tidak cukup akrab dengan pekerjaan ini untuk memberikan ringkasan yang cerdas, tetapi saya ingin memberi Anda petunjuk jika Anda merasa terbantu.

lmjohns3
sumber
Dari apa yang saya mengerti dari karya-karya Neal, Mackay dll, mereka menggunakan Bayesian Optimization di mana parameter untuk mengoptimalkan lebih adalah bobot dan bias saraf, bahkan akan menunjukkan bahwa L2 normalisasi jaringan saraf dapat dilihat sebagai Gaussian sebelum alih beban. Program itu telah dilanjutkan untuk memasukkan sejumlah lapisan tersembunyi, neuron dalam setiap lapisan, dll di antara variabel-variabel optimasi.
GuSuku
Tapi ini berbeda dari apa yang diminta OP karena merancang arsitektur jaringan saraf untuk uji coba dalam menjalankan berikutnya adalah hanya satu kasus khusus dari desain eksperimental menggunakan model Bayesian sebagai mesin hyper-desain. Saya pikir apa yang diminta OP adalah pemetaan antara jaringan saraf dan pemodelan bayesian, pada "level yang sama".
GuSuku
4

Ini mungkin utas lama, tetapi masih merupakan pertanyaan yang relevan.

Contoh paling menonjol dari koneksi antara Neural Networks (NN) dan Probabilistic Graphical Models (PGM) adalah yang ada di antara Mesin Boltzmann (dan variasinya seperti BM Terbatas, Deep BM dll.) Dan PGM tidak terarah dari Markov Random Field.

Demikian pula, Belief Networks (dan variasinya seperti Deep BN dll) adalah jenis PGM diarahkan dari grafik Bayesian

Untuk lebih lanjut, lihat:

  1. Yann Lecun, " Tutorial tentang pembelajaran berbasis energi " (2006)
  2. Yoshua Bengio, Ian Goodfellow dan Aaron Courville, "Deep Learning", Ch 16 & 20 (buku dalam persiapan, pada saat penulisan ini)
GuSuku
sumber