Saya sedang berurusan dengan Model Linear Hierarchical Bayesian , di sini jaringan menggambarkannya.
merupakan penjualan harian suatu produk di supermarket (diamati).
adalah matriks regresi yang diketahui, termasuk harga, promosi, hari dalam seminggu, cuaca, hari libur.
1 adalah tingkat persediaan laten yang tidak diketahui dari setiap produk, yang menyebabkan sebagian besar masalah dan yang saya anggap sebagai vektor variabel biner, satu untuk setiap produk dengan menunjukkan kehabisan persediaan dan dengan demikian tidak tersedianya produk. Sekalipun secara teori tidak diketahui, saya memperkirakannya melalui HMM untuk setiap produk, sehingga dianggap sebagai yang dikenal sebagai X. Saya hanya memutuskan untuk menghapusnya untuk formalisme yang tepat.
adalah parameter efek campuran untuk setiap produk tunggal di mana efek campuran yang dipertimbangkan adalah harga produk, promosi, dan kehabisan.
b 1 b 2 adalah vektor koefisien regresi tetap, sedangkan dan adalah vektor koefisien efek campuran. Satu kelompok menunjukkan merek dan yang lainnya menunjukkan rasa (ini adalah contoh, pada kenyataannya saya memiliki banyak kelompok, tetapi saya di sini melaporkan hanya 2 untuk kejelasan).
Σ b 1 Σ b 2 , dan adalah hiperparameter atas efek campuran.
Karena saya memiliki data hitung, katakanlah saya memperlakukan setiap penjualan produk sebagai Poisson didistribusikan tergantung pada Regressors (bahkan jika untuk beberapa produk pendekatan Linear berlaku dan untuk yang lain model zero inflated lebih baik). Dalam kasus seperti itu saya akan memiliki untuk produk ( ini hanya untuk siapa yang tertarik dengan model bayesian itu sendiri, langsung ke pertanyaan jika Anda merasa tidak menarik atau tidak sepele :) ):
α 0 , γ 0 , α 1 , γ 1 , α 2 , γ 2 , dikenal.
Σ β , diketahui.
,
j ∈ 1 , … , m 1 k ∈ 1 , … , m 2 , ,
X p p s i I W Z i Z i = X i σ i j i jMatriks dari efek campuran untuk 2 grup, menunjukkan harga, promosi, dan kehabisan produk yang dipertimbangkan. menunjukkan distribusi Wishart terbalik, biasanya digunakan untuk matriks kovarians dari prior multivariate normal. Tapi ini tidak penting di sini. Contoh kemungkinan bisa menjadi matriks dari semua harga, atau kita bahkan bisa mengatakan . Sehubungan dengan prior untuk matriks efek varians-kovarian campuran, saya hanya akan mencoba untuk menjaga korelasi antara entri, sehingga akan positif jika dan adalah produk dari merek yang sama atau salah satu dari rasa yang sama.
Intuisi di balik model ini adalah bahwa penjualan produk tertentu bergantung pada harganya, ketersediaannya atau tidak, tetapi juga pada harga semua produk lain dan kehabisan semua produk lainnya. Karena saya tidak ingin memiliki model yang sama (baca: kurva regresi yang sama) untuk semua koefisien, saya memperkenalkan efek campuran yang mengeksploitasi beberapa kelompok yang saya miliki dalam data saya, melalui berbagi parameter.
Pertanyaan saya adalah:
- Apakah ada cara untuk memindahkan model ini ke arsitektur jaringan saraf? Saya tahu bahwa ada banyak pertanyaan yang mencari hubungan antara jaringan bayesian, bidang acak markov, model hierarki bayesian dan jaringan saraf, tetapi saya tidak menemukan apa pun mulai dari model hierarki bayesian ke jaring saraf. Saya mengajukan pertanyaan tentang jaringan saraf karena, memiliki dimensi tinggi masalah saya (pertimbangkan bahwa saya memiliki 340 produk), estimasi parameter melalui MCMC membutuhkan waktu berminggu-minggu (saya mencoba hanya untuk 20 produk yang menjalankan rantai paralel di runJags dan butuh waktu berhari-hari) . Tapi saya tidak ingin menjadi acak dan hanya memberikan data ke jaringan saraf sebagai kotak hitam. Saya ingin memanfaatkan struktur ketergantungan / independensi jaringan saya.
Di sini saya hanya membuat sketsa jaringan saraf. Seperti yang Anda lihat, regressor ( dan masing-masing menunjukkan harga dan kehabisan produk ) di bagian atas dimasukkan ke lapisan tersembunyi sebagaimana spesifik produk tersebut (Di sini saya mempertimbangkan harga dan kehabisan stok). S i i (Tepi biru dan hitam tidak memiliki arti tertentu, itu hanya untuk membuat gambar lebih jelas). Selanjutnya dan bisa sangat berkorelasi sementaraY 1 Y 2 Y 3bisa menjadi produk yang sama sekali berbeda (pikirkan 2 jus jeruk dan anggur merah), tapi saya tidak menggunakan informasi ini dalam jaringan saraf. Saya ingin tahu apakah informasi pengelompokan digunakan hanya dalam inisialisasi berat atau jika seseorang dapat menyesuaikan jaringan dengan masalah.
Edit, ide saya:
Ide saya akan menjadi seperti ini: seperti sebelumnya, dan adalah produk yang berkorelasi, sementara adalah yang sama sekali berbeda. Mengetahui ini apriori, saya melakukan 2 hal:Y 2 Y 3
- Saya mengalokasikan beberapa neuron di lapisan tersembunyi ke grup apa pun yang saya miliki, dalam hal ini saya memiliki 2 grup {( ), ( )}.Y 3
- Saya menginisialisasi bobot tinggi antara input dan node yang dialokasikan (tepi tebal) dan tentu saja saya membangun node tersembunyi lainnya untuk menangkap 'keacakan' yang tersisa dalam data.
Terima kasih sebelumnya atas bantuan Anda
sumber
Jawaban:
Sebagai catatan, saya tidak melihat ini sebagai jawaban, tetapi hanya komentar panjang! PDE (persamaan panas) yang digunakan untuk memodelkan aliran panas melalui batang logam juga dapat digunakan untuk memodelkan harga opsi. Tidak seorang pun yang saya kenal pernah mencoba menyarankan koneksi antara harga opsi dan aliran panas per se. Saya pikir kutipan dari tautan Danilov mengatakan hal yang sama. Baik Bayesian Graphs dan Neural Nets menggunakan bahasa grafik untuk mengekspresikan hubungan antara bagian-bagian internal yang berbeda. Namun, grafik Bayesian memberi tahu seseorang tentang struktur korelasi variabel input dan grafik neural net memberitahu orang bagaimana membangun fungsi prediksi dari variabel input. Ini adalah hal yang sangat berbeda.
Berbagai metode yang digunakan dalam upaya DL untuk 'memilih' variabel yang paling penting, tetapi itu adalah masalah empiris. Itu juga tidak memberi tahu satu tentang struktur korelasi baik seluruh rangkaian variabel atau variabel yang tersisa. Ini hanya menunjukkan bahwa variabel yang bertahan akan menjadi yang terbaik untuk prediktor. Sebagai contoh jika seseorang melihat jaring saraf, satu akan mengarah ke set data kredit Jerman, yang, jika saya ingat dengan benar, 2000 poin data dan 5 variabel dependen. Melalui trial and error saya pikir Anda akan menemukan bahwa jaring dengan hanya 1 lapisan tersembunyi dan hanya menggunakan 2 dari variabel memberikan hasil terbaik untuk prediksi. Namun, ini hanya dapat ditemukan dengan membangun semua model dan mengujinya pada set pengujian independen.
sumber