Kasus Penggunaan Modern dari Mesin Boltzmann Terbatas (RBM)?

16

Latar belakang: Banyak penelitian modern dalam ~ 4 tahun terakhir (post alexnet ) tampaknya telah beralih dari menggunakan pretraining generatif untuk jaringan saraf untuk mencapai hasil klasifikasi seni yang mutakhir.

Sebagai contoh, hasil teratas untuk mnist di sini hanya mencakup 2 makalah dari 50 teratas tampaknya menggunakan model generatif, yang keduanya adalah RBM. 48 makalah pemenang lainnya adalah tentang arsitektur umpan maju yang berbeda dengan banyak upaya yang dilakukan untuk menemukan inisialisasi berat / novel yang lebih baik dan fungsi aktivasi berbeda dari sigmoid yang digunakan dalam RBM dan di banyak jaringan saraf yang lebih tua.

Pertanyaan: Apakah ada alasan modern untuk menggunakan Mesin Boltzmann Terbatas lagi?

Jika tidak, adakah modifikasi de facto yang dapat diterapkan pada arsitektur umpan maju ini untuk membuat lapisannya generatif?

Motivasi: Saya bertanya karena beberapa model yang saya lihat tersedia, biasanya varian pada RBM, tidak perlu memiliki mitra diskriminatif analog yang jelas untuk lapisan / model generatif ini, dan sebaliknya. Sebagai contoh:

  • mcRBM

  • ssRBM

  • CRBM (meskipun orang dapat berpendapat bahwa CNN menggunakan arsitektur umpan maju adalah arsitektur analog yang diskriminatif)

Juga, ini jelas pra alexnet juga, dari 2010, 2011, dan 2009 dengan hormat.

pengguna27886
sumber
3
Untuk bersenang-senang, saya membuat umpan maju NN melalui regresi otomatis. power2predict.edublogs.org/2016/06/26/…
Chris

Jawaban:

6

Ini semacam pertanyaan lama, tetapi karena pertanyaan itu pada dasarnya meminta 'praktik terbaik', daripada apa yang sebenarnya secara teknis mungkin (yaitu, tidak perlu terlalu banyak fokus penelitian), praktik terbaik saat ini adalah sesuatu seperti:

  • RBM biasanya tidak digunakan saat ini
  • model linier (regresi linier, regresi logistik) digunakan jika memungkinkan
  • jika tidak, jaringan umpan-maju yang dalam dengan lapisan-lapisan seperti lapisan yang sepenuhnya terhubung, lapisan konvolusional, dan melempar beberapa jenis lapisan regularisasi, seperti putus, dan akhir-akhir ini batch-normalisasi
  • tentu saja dengan lapisan aktivasi di antaranya, biasanya ReLU, tetapi tanh dan sigmoid juga digunakan
  • dan mungkin beberapa max-pooling (tidak selalu: pooling rata-rata dan lainnya juga digunakan)

Untuk penggunaan generatif, teknik umum meliputi:

Hugh Perkins
sumber
1

Saya baru-baru ini menemukan makalah ini pada "Mesin Adversarial Encoder Boltzmann" yang mengintegrasikan RBM dengan CNN sebagai model generatif.

Para penulis menunjukkan secara matematis "lebih baik" dalam beberapa hal, dan menunjukkan beberapa contoh mainan di mana BEAM tampaknya jauh lebih mampu mempelajari distribusi data secara akurat dibandingkan dengan model GAN ​​lainnya.

Benchmark "dunia nyata" dari wajah CelebA jauh lebih tidak mengesankan - tidak jelas bahwa BEAM lebih baik atau bahkan sama halnya dengan GAN populer lainnya. Namun, penggunaan RBM dalam pengaturan ini tentu menarik.

shimao
sumber
Menurut Anda, apakah kegagalan ini disebabkan oleh ruang pencarian BEAM yang memungkinkan serangkaian kebebasan yang lebih besar secara intrinsik dengan definisi model?
Vass