Saya menyarankan agar Anda pertama kali memahami dengan baik apa yang menjadi model probabilistik yang mendasari Jaringan Bayural tradisional Neural. Berikut ini, beberapa istilah akan ditulis dengan huruf tebal . Silakan coba googling istilah-istilah itu untuk menemukan informasi yang lebih terperinci. Ini hanya gambaran umum dasar. Saya harap ini membantu.
Mari kita pertimbangkan kasus regresi dalam jaringan saraf feedforward dan buat beberapa notasi.
Biarkan menunjukkan nilai prediktor pada lapisan input . Nilai unit di lapisan dalam akan dilambangkan dengan ( z ( ℓ ) 1 , … , z ( ℓ ) N ℓ ) , untuk(x1,…,xp)=:(z(0)1,…,z(0)N0)(z(ℓ)1,…,z(ℓ)Nℓ) . Akhirnya, kita memilikilapisan output ( y 1 , ... , y k ) = : ( z ( L ) 1 , ... , z ( L ) N L ) .ℓ=1,…,L−1 (y1,…,yk)=:(z(L)1,…,z(L)NL)
The bobot dan bias yang unit pada lapisan ℓ akan dilambangkan dengan w ( ℓ ) i j dan b ( ℓ ) i , masing-masing, untuk ℓ = 1 , ... , L , i = 1 ... , N ℓ , dan j = 1 , … , N ℓ - 1 .iℓw(ℓ)ijb(ℓ)iℓ=1,…,Li=1…,Nℓj=1,…,Nℓ−1
Misalkan menjadi fungsi aktivasi untuk unit i pada layer ℓ , untuk ℓ = 1 , … , L dan i = 1 … , N ℓ .g(ℓ)i:RNℓ−1→Riℓℓ=1,…,Li=1…,Nℓ
Fungsi aktivasi yang umum digunakan adalah logistik , ReLU (alias bagian positif ), dan tanh .
ℓ=1,…,L
G(ℓ):RNℓ−1→RNℓ:(z(ℓ−1)1,…,z(ℓ−1)Nℓ−1)↦(z(ℓ)1,…,z(ℓ)Nℓ),
z(ℓ)i=g(ℓ)i(∑j=1Nℓ−1w(ℓ)ijz(ℓ−1)j+b(ℓ)i),
i=1,…,Nℓ
θ
θ={w(ℓ)ij,b(ℓ)i:ℓ=1,…,L;i=1…,Nℓ;j=1,…,Nℓ−1},
Gθ:Rp→RkGθ=G(L)∘G(L−1)∘⋯∘G(1).
Tidak ada probabilitas yang terlibat dalam uraian di atas. Tujuan dari bisnis jaringan saraf asli adalah fungsi pas .
" Jauh " dalam Pembelajaran Mendalam berarti keberadaan banyak lapisan dalam di jaringan saraf yang sedang dipertimbangkan.
{(xi,yi)∈Rp×Rk:i=1,…,n}
∑i=1n∥yi−Gθ(xi)∥2,
θx∗Gθ^(x∗)θ^seperti penalti untuk fungsi tujuan, atau menggunakan
putus sekolah selama pelatihan.
Geoffrey Hinton (alias Deep Learning Godfather) dan kolaborator menemukan banyak hal ini. Kisah sukses Deep Learning ada di mana-mana.
Lx,y(θ,σ2)∝σ−nexp(−12σ2∑i=1n∥yi−Gθ(xi)∥2),
π(θ,σ2)∝exp(−12σ20∑ℓ=1L∑i=1Nℓ((b(ℓ)i)2+∑j=1Nℓ−1(w(ℓ)ij)2))×π(σ2).
Therefore, the marginal priors for the weights and biases are normal distributions with zero mean and common variance σ20. This original joint model can be made much more involved, with the trade-off of making inference harder.
Bayesian Deep Learning faces the difficult task of sampling from the corresponding posterior distribution. After this is accomplished, predictions are made naturally with the posterior predictive distribution, and the uncertainties involved in these predictions are fully quantified. The holy grail in Bayesian Deep Learning is the construction of an efficient and scalable solution. Many computational methods have been used in this quest: Metropolis-Hastings and Gibbs sampling, Hamiltonian Monte Carlo, and, more recently, Variational Inference.
Check out the NIPS conference videos for some success stories: http://bayesiandeeplearning.org/