Turunan dari cross entropy loss di word2vec

Saya mencoba untuk bekerja dengan cara saya melalui set masalah pertama dari materi kursus stanford kelas cs224d online dan saya mengalami beberapa masalah dengan masalah 3A: Ketika menggunakan model skip gram word2vec dengan fungsi prediksi softmax dan fungsi kehilangan entropi silang, kami ingin menghitung gradien sehubungan dengan vektor kata yang diprediksi. Jadi diberikan fungsi softmax:

$\hat{w_i} = \Pr(word_i\mid\hat{r}, w) = \frac{\exp(w_i^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}$

dan fungsi lintas entropi:

$CE(w, \hat{w}) = -\sum\nolimits_{k} w_klog(\hat{w_k})$

kita perlu menghitung $\frac{\partial{CE}}{\partial{\hat{r}}}$

Langkah-langkah saya adalah sebagai berikut:

$CE(w, \hat{w}) = -\sum_{k}^{|V|} w_klog(\frac{\exp(w_k^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})})$

$= -\sum_{k}^{|V|} w_klog(\exp(w_k^T \hat{r}) - w_klog(\sum_{j}^{|V|}exp(w_j^T\hat{r}))$

sekarang diberikan $w_k$ adalah satu vektor panas dan saya adalah kelas yang benar:

$CE(w, \hat{w}) = - w_i^T\hat{r} + log(\sum_{j}^{|V|}exp(w_j^T\hat{r}))$

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j$

Apakah ini benar atau dapatkah itu disederhanakan lebih lanjut? Saya ingin memastikan bahwa saya berada di jalur yang benar karena solusi masalah tidak diposting secara online. Plus mendapatkan tugas tertulis yang benar adalah penting untuk dapat melakukan tugas pemrograman dengan benar.

machine-learning self-study word2vec slushi
sumber

Silakan tambahkan tanda belajar mandiri ke pertanyaan

Dawny33

Tanda minus 2 di identitas log pertama harus menjadi nilai tambah. Mencoba memperbaikinya untuk Anda, tetapi pengeditan harus setidaknya 6 karakter: \

FatalMojo

Jawaban:

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \frac{1}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r}) w_{j}

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j$ dapat ditulis ulang sebagai perhatikan, jumlah keduanya diindeks oleh j tetapi harus benar-benar 2 variabel yang berbeda. Ini akan lebih tepat yang diterjemahkan menjadi

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{j}^{| V |} (\frac{\exp (w_{j}^{⊤} \hat{r})}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \cdot w_{j})

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{j}^{|V|} \left( \frac{ \exp(w_j^\top\hat{r}) }{\sum_{j}^{|V|}exp(w_j^T\hat{r})} \cdot w_j \right)$

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{x}^{| V |} (\frac{\exp (w_{x}^{⊤} \hat{r})}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \cdot w_{x})

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{x}^{|V|} \left( \frac{ \exp(w_x^\top\hat{r}) }{\sum_{j}^{|V|}exp(w_j^T\hat{r})} \cdot w_x \right)$

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{x}^{| V |} Pr (w o r d_{x} ∣ \hat{r}, w) \cdot w_{x}

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{x}^{|V|} \Pr(word_x\mid\hat{r}, w) \cdot w_x$

FatalMojo
sumber

Relevan, ia membahas derivasi itu secara detail di kuliah 2 @

38:00

Mengapa jumlah harus diindeks oleh variabel yang berbeda?

Yamaneko

Hanya untuk menghindari kebingungan. Secara matematis artinya sama, tetapi praktik yang baik untuk mengubah label indeks saat menambahkan jumlah baru.

FatalMojo