Bagaimana cara mendapatkan kesalahan dalam jaringan saraf dengan algoritma backpropagation?

Saya akan menjawab pertanyaan Anda tentang , tetapi ingat bahwa pertanyaan Anda adalah sub pertanyaan dari pertanyaan yang lebih besar, itulah sebabnya: $\delta_i^{(l)}$

\nabla_{saya j}^{(l)} = \sum_{k} θ_{k saya}^{(l + 1)} δ_{k}^{(l + 1)} * ({Sebuah}_{saya}^{(l)} (1 - {Sebuah}_{saya}^{(l)})) * {Sebuah}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \sum_k \theta_{ki}^{(l+1)}\delta_k^{(l+1)}*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

Pengingat tentang langkah-langkah di jaringan saraf:

Langkah 1: meneruskan propagasi (perhitungan ) $a_{i}^{(l)}$
Langkah 2a: propagasi mundur: perhitungan kesalahan $\delta_{i}^{(l)}$
Langkah 2b: propagasi mundur: perhitungan gradien $\nabla_{ij}^{(l)}$ dari J ( $\Theta$ ) menggunakan kesalahan $\delta_{i}^{(l+1)}$ dan $a_{i}^{(l)}$ ,
Langkah 3: gradient descent: hitung yang baru $\theta_{ij}^{(l)}$ menggunakan gradien $\nabla_{ij}^{(l)}$

Pertama, untuk memahami apa itu $\delta_i^{(l)}$ adalah , apa yang mereka wakili dan mengapa Andrew NG membicarakannya , Anda perlu memahami apa yang sebenarnya dilakukan Andrew pada saat itu dan mengapa kami melakukan semua perhitungan ini: Dia menghitung gradien $\nabla_{ij}^{(l)}$ dari $\theta_{ij}^{(l)}$ untuk digunakan dalam algoritma keturunan Gradient.

Gradien didefinisikan sebagai:

\nabla_{saya j}^{(l)} = \frac{\partial C}{\partial θ_{saya j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial \theta_{ij}^{(l)}}$

Karena kita tidak dapat benar-benar menyelesaikan rumus ini secara langsung, kita akan memodifikasinya menggunakan DUA TRIK MAGIK untuk sampai pada formula yang sebenarnya dapat kita hitung. Formula akhir yang dapat digunakan ini adalah:

\nabla_{saya j}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * ({Sebuah}_{saya}^{(l)} (1 - {Sebuah}_{saya}^{(l)})) * {Sebuah}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

Untuk sampai pada hasil ini, TRIK MAGIC PERTAMA adalah kita dapat menulis gradien $\nabla_{ij}^{(l)}$ dari $\theta_{ij}^{(l)}$ menggunakan $\delta_i^{(l)}$ :

\nabla_{saya j}^{(l)} = δ_{saya}^{(l)} * {Sebuah}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$ Dengan

δ_{i}^{(L)}

$\delta_i^{(L)}$ didefinisikan (hanya untuk indeks L) sebagai:

δ_{saya}^{(L.)} = \frac{\partial C}{\partial z_{saya}^{(l)}}

$\delta_i^{(L)} = \dfrac {\partial C} {\partial z_i^{(l)}}$

Dan kemudian TRIC MAGIC KEDUA menggunakan hubungan antara $\delta_i^{(l)}$ dan $\delta_i^{(l+1)}$ , untuk menentukan indeks lainnya,

δ_{saya}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * ({Sebuah}_{saya}^{(l)} (1 - {Sebuah}_{saya}^{(l)}))

$\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$

Dan seperti yang saya katakan, akhirnya kita bisa menulis formula yang kita tahu semua istilah:

\nabla_{saya j}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * ({Sebuah}_{saya}^{(l)} (1 - {Sebuah}_{saya}^{(l)})) * {Sebuah}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

DEMONSTRASI TRIK AJAIB PERTAMA: $\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$

Kami mendefinisikan:

\nabla_{i j}^{(l)} = \frac{\partial C}{\partial θ_{i j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial \theta_{ij}^{(l)}}$

The Rantai aturan untuk dimensi yang lebih tinggi (Anda harus benar-benar membaca properti ini dari Rantai aturan) memungkinkan kita untuk menulis:

\nabla_{i j}^{(l)} = \sum_{k} \frac{\partial C}{\partial z_{k}^{(l)}} * \frac{\partial z_{k}^{(l)}}{\partial θ_{i j}^{(l)}}

$\nabla_{ij}^{(l)} = \sum_k \dfrac {\partial C} {\partial z_k^{(l)}} * \dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}}$

Namun, seperti:

z_{k}^{(l)} = \sum_{m} θ_{k m}^{(l)} * {Sebuah}_{m}^{(l - 1)}

$z_k^{(l)} = \sum_m \theta_{km}^{(l)} * a_m^{(l-1)}$

Kami kemudian dapat menulis:

\frac{\partial z_{k}^{(l)}}{\partial θ_{saya j}^{(l)}} = \frac{\partial}{\partial θ_{saya j}^{(l)}} \sum_{m} θ_{k m}^{(l)} * {Sebuah}_{m}^{(l - 1)}

$\dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}} = \dfrac {\partial}{\partial \theta_{ij}^{(l)}} \sum_m \theta_{km}^{(l)} * a_m^{(l-1)}$

Karena linearitas diferensiasi [(u + v) '= u' + v '], kita dapat menulis:

\frac{\partial z_{k}^{(l)}}{\partial θ_{saya j}^{(l)}} = \sum_{m} \frac{\partial θ_{k m}^{(l)}}{\partial θ_{saya j}^{(l)}} * {Sebuah}_{m}^{(l - 1)}

$\dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}} = \sum_m\dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)}$

dengan:

saya f k, m \neq saya, j, \frac{\partial θ_{k m}^{(l)}}{\partial θ_{saya j}^{(l)}} * {Sebuah}_{m}^{(l - 1)} = 0

$if k,m \neq i,j, \ \ \dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)} = 0$

saya f k, m = saya, j, \frac{\partial θ_{k m}^{(l)}}{\partial θ_{saya j}^{(l)}} * {Sebuah}_{m}^{(l - 1)} = \frac{\partial θ_{saya j}^{(l)}}{\partial θ_{saya j}^{(l)}} * {Sebuah}_{j}^{(l - 1)} = {Sebuah}_{j}^{(l - 1)}

$if k,m = i,j, \ \ \dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)} = \dfrac {\partial\theta_{ij}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} = a_j^{(l-1)}$

Kemudian untuk k = i (jika tidak sama dengan nol):

\frac{\partial z_{saya}^{(l)}}{\partial θ_{saya j}^{(l)}} = \frac{\partial θ_{saya j}^{(l)}}{\partial θ_{saya j}^{(l)}} * {Sebuah}_{j}^{(l - 1)} + \sum_{m \neq j} \frac{\partial θ_{saya m}^{(l)}}{\partial θ_{saya j}^{(l)}} * {Sebuah}_{j}^{(l - 1)} = {Sebuah}_{j}^{(l - 1)} + 0

$\dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}} = \dfrac {\partial\theta_{ij}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} + \sum_{m \neq j}\dfrac {\partial\theta_{im}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} = a_j^{(l-1)} + 0$

Akhirnya, untuk k = i:

\frac{\partial z_{saya}^{(l)}}{\partial θ_{saya j}^{(l)}} = {Sebuah}_{j}^{(l - 1)}

$\dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}} = a_j^{(l-1)}$

Sebagai hasilnya, kita dapat menulis ekspresi gradien pertama kita $\nabla_{ij}^{(l)}$ :

\nabla_{saya j}^{(l)} = \frac{\partial C}{\partial z_{saya}^{(l)}} * \frac{\partial z_{saya}^{(l)}}{\partial θ_{saya j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}} * \dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}}$

Yang setara dengan:

\nabla_{saya j}^{(l)} = \frac{\partial C}{\partial z_{saya}^{(l)}} * {Sebuah}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}} * a_j^{(l-1)}$

Atau:

\nabla_{saya j}^{(l)} = δ_{saya}^{(l)} * {Sebuah}_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$

DEMONSTRASI TRIK SIHIR KEDUA : $\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$ atau:

δ^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * ({Sebuah}^{(l)} (1 - {Sebuah}^{(l)}))

$\delta^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a^{(l)}(1-a^{(l)}))$

Ingatlah bahwa kami berpose:

δ^{(l)} = \frac{\partial C}{\partial z^{(l)}} Sebuah n d δ_{saya}^{(l)} = \frac{\partial C}{\partial z_{saya}^{(l)}}

$\delta^{(l)} = \dfrac {\partial C} {\partial z^{(l)}} \ \ \ and \ \ \ \delta_i^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}}$

Sekali lagi, aturan Rantai untuk dimensi yang lebih tinggi memungkinkan kita untuk menulis:

δ_{saya}^{(l)} = \sum_{k} \frac{\partial C}{\partial z_{k}^{(l + 1)}} \frac{\partial z_{k}^{(l + 1)}}{\partial z_{saya}^{(l)}}

$\delta_i^{(l)} = \sum_k \dfrac {\partial C} {\partial z_k^{(l+1)}} \dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$

Mengganti $\dfrac {\partial C} {\partial z_k^{(l+1)}}$ oleh $\delta_k^{(l+1)}$ , kita punya:

δ_{saya}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} \frac{\partial z_{k}^{(l + 1)}}{\partial z_{saya}^{(l)}}

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$

Sekarang, mari fokus $\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$ . Kita punya:

z_{k}^{(l + 1)} = \sum_{j} θ_{k j}^{(l + 1)} * {Sebuah}_{j}^{(l)} = \sum_{j} θ_{k j}^{(l + 1)} * g (z_{j}^{(l)})

$z_k^{(l+1)} = \sum_j \theta_{kj}^{(l+1)} * a_j^{(l)} = \sum_j \theta_{kj}^{(l+1)} * g(z_j^{(l)})$

Kemudian kami menurunkan ungkapan ini tentang $z_k^{(i)}$ :

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{saya}^{(l)}} = \frac{\partial \sum_{j} θ_{k j}^{(l)} * g (z_{j}^{(l)})}{\partial z_{saya}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \dfrac {\partial \sum_j \theta_{kj}^{(l)} * g(z_j^{(l)}) }{\partial z_i^{(l)}}$

Karena linearitas derivasi, kita dapat menulis:

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{saya}^{(l)}} = \sum_{j} θ_{k j}^{(l)} * \frac{\partial g (z_{j}^{(l)})}{\partial z_{saya}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \sum_j \theta_{kj}^{(l)} * \dfrac {\partial g(z_j^{(l)}) }{\partial z_i^{(l)}}$

Jika j $\neq$ Lalu saya $\dfrac {\partial \theta_{kj}^{(l)} * g(z_j^{(l)})} {\partial z_i^{(l)}} = 0$

Sebagai konsekuensi:

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{saya}^{(l)}} = \frac{θ_{k saya}^{(l)} * \partial g (z_{saya}^{(l)})}{\partial z_{saya}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \dfrac {\theta_{ki}^{(l)} * \partial g(z_i^{(l)}) }{\partial z_i^{(l)}}$

Lalu:

δ_{saya}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k saya}^{(l)} * \frac{\partial g (z_{saya}^{(l)})}{\partial z_{saya}^{(l)}}

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l)} * \dfrac { \partial g(z_i^{(l)}) }{\partial z_i^{(l)}}$

Sebagai g '(z) = g (z) (1-g (z)), kita memiliki:

δ_{saya}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k saya}^{(l)} * g (z_{saya}^{(l)}) (1 - g (z_{saya}^{(l)})

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l)} * g(z_i^{(l)})(1-g(z_i^{(l)})$

Dan sebagai $g(z_i^{(l)} = a_i^{(l)}$ , kita punya:

δ_{saya}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k saya}^{(l + 1)} * {Sebuah}_{saya}^{(l)} (1 - {Sebuah}_{saya}^{(l)})

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l+1)} * a_i^{(l)}(1-a_i^{(l)})$

Dan akhirnya, menggunakan notasi vektor:

\nabla_{saya j}^{(l)} = [θ^{(l + 1)^{T}} δ^{(l + 1)} * ({Sebuah}_{saya}^{(l)} (1 - {Sebuah}_{saya}^{(l)}))] * [{Sebuah}_{j}^{(l - 1)}]

$\nabla_{ij}^{(l)} = [\theta^{(l+1)^T}\delta^{(l+1)}*(a_i^{(l)}(1-a_i^{(l)}))] * [a_j^{(l-1)}]$

tmangin
sumber

Terima kasih atas jawaban Anda. Saya membesarkan hati Anda !! Bisakah Anda mengutip sumber yang Anda rujuk untuk sampai pada jawabannya ... :)

Adithya Upadhya

@tmangin: Mengikuti pembicaraan Andrew Ng, sudah

δ_{j}^{(i)}

$\delta_j^{(i)}$ adalah kesalahan simpul j di lapisan l. Bagaimana Anda mendapatkan definisi

δ_{j}^{(i)} = \frac{\partial C}{\partial Z_{j}^{(l)}}

$\delta_j^{(i)}=\frac{\partial C}{\partial Z_j^{(l)}}$ .

phuong

@ phuong Sebenarnya, saya Anda benar untuk bertanya: hanya itu

δ_{saya}^{(L.)}

$\delta_i^{(L)}$ dengan indeks "l" tertinggi L didefinisikan sebagai

δ_{saya}^{(L.)} = \frac{\partial C}{\partial z_{saya}^{(l)}}

$\delta_i^{(L)} = \dfrac {\partial C} {\partial z_i^{(l)}}$ Sedangkan delta dengan indeks "l" yang lebih rendah ditentukan oleh rumus berikut:

δ_{saya}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * ({Sebuah}_{saya}^{(l)} (1 - {Sebuah}_{saya}^{(l)}))

$\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$

tmangin

Saya sangat merekomendasikan membaca notasi vektor backprop menghitung gradien.

CKM

Formula akhir yang bisa digunakan bukan apa yang dimiliki Andrew Ng, yang membuatnya sangat frustasi untuk mengikuti bukti Anda. Dia memiliki ∇ (l) ij = θ (l) Tδ (l + 1). ∗ (a (l) i (1 − a (l) i)) ∗ a (l − 1) j, bukan θ (l + 1) Tδ (l + 1)

Aziz Javed

Bagaimana cara mendapatkan kesalahan dalam jaringan saraf dengan algoritma backpropagation?

Jawaban: