Mengapa sqrt (6) digunakan untuk menghitung epsilon untuk inisialisasi acak jaringan saraf?

Dalam catatan kuliah 5 minggu untuk Andrew Ng's Coursera Machine Learning Class , rumus berikut diberikan untuk menghitung nilai digunakan untuk menginisialisasi dengan nilai acak: $\epsilon$ $\Theta$

Dalam latihan , klarifikasi lebih lanjut diberikan:

Salah satu strategi efektif untuk memilih adalah mendasarkannya pada jumlah unit dalam jaringan. Pilihan adalah , di mana dan adalah jumlah unit dalam lapisan yang berdekatan dengan . $\epsilon_{init}$ $\epsilon_{init}$ $\epsilon_{init} = \frac{\sqrt{6}}{\sqrt{L_{in} - L_{out}}}$ $L_{in} = s_l$ $L_{out} = s_{l+1}$ $\Theta^{(l)}$

Mengapa konstanta digunakan di sini? Mengapa tidak , atau ? $\sqrt 6$ $\sqrt 5$ $\sqrt 7$ $\sqrt {6.1}$

machine-learning neural-networks random-generation Tom Hale
sumber

Jawaban:

Saya percaya ini adalah inisialisasi normalisasi Xavier (diimplementasikan dalam beberapa kerangka kerja pembelajaran dalam misalnya Keras, Cafe, ...) dari Memahami kesulitan pelatihan deep neuroforforward neural network oleh Xavier Glorot & Yoshua Bengio.

Lihat persamaan 12, 15 dan 16 di kertas yang ditautkan: mereka bertujuan untuk memenuhi persamaan 12:

Var [W_{saya}] = \frac{2}{n_{saya} + n_{saya + 1}}

$\text{Var}[W_i] = \frac{2}{n_i + n_{i+1}}$

dan varian RV seragam di $[-\epsilon,\epsilon]$ adalah $\epsilon^2/3$ (rata-rata nol, pdf = $1/(2\epsilon)$ begitu varians $=\int_{-\epsilon}^{\epsilon}x^2 \frac{1}{2\epsilon}dx$

seanv507
sumber

Hmm, jadi kenapa gunakan

\sqrt{6}

$\sqrt 6$ dari pada

2

$2$ ?

Tom Hale

Masukkan epsilon ke dalam rumus untuk varian variabel acak seragam di +/- x dan apa yang Anda dapatkan?

seanv507

Doh! Saya sekarang melihat dalam formula (16) itu

[- ϵ, ϵ]

$[-\epsilon, \epsilon]$ digunakan. Di mana Anda dapatkan

x^{2} / 3

$x^2 / 3$ dari meskipun?

Tom Hale

menambahkan penjelasan untuk varian RV seragam ...

seanv507