Apakah model grafis dan mesin Boltzmann terkait secara matematis?

10

Sementara saya benar-benar telah melakukan beberapa pemrograman dengan mesin Boltzmann di kelas fisika, saya tidak akrab dengan karakterisasi teoretis mereka. Sebaliknya, saya tahu sedikit tentang teori model grafis (tentang beberapa bab pertama buku Lauritzen, Graphical Models ).

Pertanyaan: Apakah ada hubungan yang bermakna antara model grafis dan mesin Boltzmann? Apakah mesin Boltzmann merupakan jenis model grafis?

Jelas mesin Boltzmann adalah jenis jaringan saraf. Saya telah mendengar bahwa beberapa jaringan saraf secara matematis terkait dengan model grafis dan ada juga yang tidak.

Pertanyaan Terkait tentang CrossValidated yang tidak menjawab pertanyaan saya:
Ini mirip dengan pertanyaan sebelumnya yang telah diajukan sebelumnya: Apa hubungan antara model hierarkis, jaringan saraf, model grafis, jaringan bayesian? tetapi lebih spesifik.

Selain itu, jawaban yang diterima untuk pertanyaan itu tidak menjelaskan kebingungan saya - bahkan jika node dalam representasi grafis standar dari jaringan saraf tidak mewakili variabel acak, itu tidak berarti bahwa tidak ada representasi seperti itu ada. Secara khusus, saya berpikir tentang bagaimana node dalam representasi grafis khas rantai Markov mewakili set keadaan yang mungkin daripada variabel acak , tetapi kita juga bisa membuat grafik yang menunjukkan hubungan ketergantungan bersyarat antaraXiXi, yang menunjukkan bahwa setiap rantai Markov sebenarnya adalah bidang acak Markov. Jawabannya juga mengatakan bahwa jaringan saraf (mungkin termasuk mesin Boltzmann) "diskriminatif", tetapi tidak menjelaskan secara lebih rinci untuk menjelaskan apa arti klaim itu, dan juga bukan pertanyaan tindak lanjut yang jelas "apakah model grafis tidak diskriminatif?" ditangani. Demikian juga, tautan jawaban yang diterima ke situs web Kevin Murphy (saya sebenarnya membaca beberapa tesis PhD-nya ketika mempelajari tentang jaringan Bayesian), tetapi situs web ini hanya membahas jaringan Bayesian dan tidak menyebutkan jaringan saraf sama sekali - sehingga tidak menjelaskan bagaimana mereka berbeda.

Pertanyaan lain ini mungkin paling mirip dengan saya: Pemodelan jaringan saraf secara matematis sebagai model grafis Namun, tidak ada jawaban yang diterima, dan juga hanya memberikan referensi tetapi tidak menjelaskan referensi (misalnya jawaban ini ). Walaupun suatu hari saya berharap dapat memahami referensi, saat ini saya berada pada tingkat pengetahuan dasar dan akan sangat menghargai jawaban yang sesederhana mungkin. Juga, kursus Toronto yang ditautkan dengan jawaban teratas ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) membahas hal ini, tetapi tidak terlalu detail. Selain itu, catatan untuk satu kuliah yang mungkin menjawab pertanyaan saya tidak tersedia untuk umum.

25 Maret Kuliah 13b: Belief Nets 7:43. Untuk slide ini, perlu diingat Mesin Boltzmann. Di sana, kami juga memiliki unit tersembunyi dan unit yang terlihat, dan semuanya probabilistik. BM dan SBN memiliki lebih banyak kesamaan daripada mereka memiliki perbedaan. 9:16. Saat ini, "Model Grafis" kadang-kadang dianggap sebagai kategori khusus dari jaringan saraf, tetapi dalam sejarah yang dijelaskan di sini, mereka dianggap sebagai jenis sistem yang sangat berbeda.

Chill2Macht
sumber

Jawaban:

7

Mesin Boltzmann vs mesin Boltzmann terbatas

AFAIK mesin Boltzmann adalah jenis model grafis, dan model yang terkait dengan jaringan saraf adalah mesin Boltzmann terbatas (RBM).

Perbedaan antara mesin Boltzmann dan mesin Boltzmann terbatas, dari buku Machine Learning A Probabilistic Perspective masukkan deskripsi gambar di sini

RBM vs jaringan saraf

Untuk RBM (ref: Panduan Praktis untuk Pelatihan Mesin Boltzmann Terbatas oleh Geoffrey Hinton ) mana dan sesuai dengan unit yang terlihat dan tersembunyi pada gambar di atas, dan adalah fungsi Sigmoid.

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
p(vi=1|h)=σ(ai+hjwij)
vhσ()

Probabilitas bersyarat dihitung dalam bentuk lapisan jaringan yang sama, sehingga bobot RBM yang terlatih dapat digunakan secara langsung sebagai bobot jaringan saraf atau sebagai titik awal pelatihan.

Saya pikir RBM itu sendiri lebih merupakan model grafis daripada jenis jaringan saraf, karena tidak terarah, ia memiliki independensi kondisional yang terdefinisi dengan baik, dan menggunakan algoritma pelatihan sendiri (misalnya divergensi kontras).

dontloo
sumber
2
Bagus ini adalah jawaban yang sangat bagus dengan referensi yang bagus. Juga membuat saya ingin membaca buku Profesor Murphy lebih cepat. Saya menghargai waktu yang Anda ambil untuk membuat jawaban menyeluruh ini.
Chill2Macht
2
@ William senang bisa membantu :)
dontloo
2
Jawaban yang bagus. Bisakah Anda mendokumentasikan notasi lebih banyak? (Saya baru-baru ini membaca sesuatu yang berkaitan saya kira, jadi saya mengenali node yang terlihat, node tersembunyi, fungsi logistik, tetapi yang lain mungkin tidak.) Juga mungkin baik untuk menyertakan kutipan penuh , untuk menjaga terhadap tautan -membusuk. v=h=σ()=
GeoMatt22
2
@ GeoMatt22 terima kasih, saya sudah memperbarui jawabannya.
dontloo
3

Ini hanya mengkonfirmasi / memverifikasi jawaban yang diterima, bahwa mesin Boltzmann memang merupakan kasus khusus dari model grafis. Secara khusus, pertanyaan ini ditujukan pada hal. 127-127 dari Koller, Friedman, Model Grafis Probabilistik: Prinsip dan Teknik , dalam Kotak 4.C.

Salah satu jenis model jaringan Markov yang paling awal adalah model Ising yang pertama kali muncul dalam fisika statistik sebagai model untuk energi sistem fisik yang melibatkan sistem atom yang berinteraksi ... Terkait dengan model Ising adalah distribusi mesin Boltzmann .. energi yang dihasilkan dapat diformulasikan dalam bentuk model Ising (Latihan 4.12).

Bagaimana model Ising, awalnya konsep dari literatur mekanika statistik, dapat dirumuskan sebagai model grafis diberikan secara lebih rinci dalam Contoh 3.1., Bagian 3.3., Pada hal. 41-43 dari Wainwright, Jordan, Model Grafis, Eksponensial Keluarga, dan Inferensi Variasi .

Rupanya model Ising berperan dalam fondasi bidang model grafis selama akhir 1970-an dan awal 1980-an, setidaknya berdasarkan pada apa yang dikatakan Steffen Lauritzen di kata pengantar dan pengantar bukunya, Graphical Models . Penafsiran ini juga tampaknya didukung oleh Bagian 4.8 dalam Koller dan Friedman buku yang dikutip di atas.

Pengembangan mesin Boltzmann dari model Ising mungkin merupakan kejadian independen, berdasarkan pada bagian yang sama dari Koller dan Friedman juga, yang mengklaim bahwa "mesin Boltzmann pertama kali diusulkan oleh Hinton dan Sejnowski (1983)", yang tampaknya memiliki terjadi setelah pekerjaan awal dalam mengembangkan bidang acak Markov sebagai generalisasi model Ising, meskipun pekerjaan di balik makalah itu bisa dimulai jauh lebih awal daripada tahun 1983.


Kebingungan saya mengenai hubungan ini, ketika saya menulis pertanyaan ini lebih dari setahun yang lalu, berasal dari fakta bahwa saya pertama kali menemukan kedua model Ising, dan model mesin Boltzmann untuk neuron, dalam literatur fisika. Seperti yang Koller dan Friedman sebutkan, literatur dalam komunitas fisika statistik tentang model Ising dan gagasan terkait sangat luas.

Dalam pengalaman saya itu juga cukup picik, dalam arti bahwa sementara ahli statistik dan ilmuwan komputer yang mempelajari model grafis akan menyebutkan bagaimana bidang ini terkait dengan mekanika statistik, tidak ada referensi yang pernah saya temukan dari literatur fisika statistik yang menyebutkan koneksi ke bidang lain atau mencoba untuk mengeksploitasinya. (Karena itu membuat saya ragu dan bingung oleh anggapan bahwa mungkin ada koneksi seperti itu ke bidang lain.)

Untuk contoh perspektif fisikawan pada model Ising dan mesin Boltzmann, lihat buku teks dari kursus di mana saya pertama kali mempelajarinya. Ini juga menyebutkan metode lapangan yang berarti, jika saya ingat dengan benar, sesuatu yang dibahas juga dalam artikel Jordan dan Wainwright yang dikutip di atas.

Chill2Macht
sumber
2
koneksi mungkin sangat tipis, dan sebagian besar didasarkan pada penggunaan fungsi partisi yang merupakan dasar dari mekanika statistik dan bahwa eksponensial dari jumlah produk dalam diambil. Fungsi softmax juga menggunakan formulir ini sehingga nomenaclature mempertahankan warisan istilah dan banyak fisikawan bekerja (ed) dalam ML (mis. Christopher Bishop).
Vass