Derivasi Fungsi Biaya Regresi Linier Regularisasi per Kursus Pembelajaran Mesin Coursera

12

Saya mengambil kursus Andrew Ng "Pembelajaran Mesin" melalui Coursera beberapa bulan yang lalu, tidak memperhatikan sebagian besar matematika / derivasi dan bukannya berfokus pada implementasi dan kepraktisan. Sejak itu saya mulai kembali mempelajari beberapa teori yang mendasarinya, dan telah meninjau kembali beberapa kuliah Prof. Ng. Saya membaca ceramahnya tentang "Reguler Linear Regression", dan melihat bahwa ia memberikan fungsi biaya sebagai berikut:

J (θ) = \frac{1}{2 m} [\sum_{saya = 1}^{m} (h_{θ} (x^{(saya)}) - y^{(saya)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^n\theta^2_j]$

Kemudian, ia memberikan gradien berikut untuk fungsi biaya ini:

\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} [\sum_{saya = 1}^{m} (h_{θ} (x^{(saya)}) - y^{(saya)}) x_{j}^{(saya)} - λ θ_{j}]

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})x^{(i)}_j - \lambda\theta_j]$

Saya sedikit bingung tentang bagaimana dia mendapat dari satu ke yang lain. Ketika saya mencoba melakukan derivasi sendiri, saya mendapatkan hasil sebagai berikut:

\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} [\sum_{saya = 1}^{m} (h_{θ} (x^{(saya)}) + y^{(saya)}) x_{j}^{(saya)} + λ θ_{j}]

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) + y^{(i)})x^{(i)}_j + \lambda\theta_j]$

Perbedaannya adalah tanda 'plus' antara fungsi biaya asli dan parameter regularisasi dalam rumus Prof. Ng berubah menjadi tanda 'minus' dalam fungsi gradiennya, sedangkan itu tidak terjadi pada hasil saya.

Secara intuitif saya mengerti mengapa itu negatif: kita mengurangi parameter theta oleh angka gradien, dan kami ingin parameter regularisasi mengurangi jumlah parameter yang kami ubah untuk menghindari overfitting. Saya hanya sedikit terjebak pada kalkulus yang mendukung intuisi ini.

FYI, Anda dapat menemukan dek di sini , pada slide 15 dan 16.

regression self-study wellington
sumber

1

Dalam hasil Anda, Anda memiliki " + " sebelum y ^ (i) - apakah itu salah ketik?

Steve S

12

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^n\theta^2_j]$

Sekarang

$\frac{\partial}{\partial \theta_j}(h_\theta (x^{(i)}) - y^{(i)})^2=2[(h_\theta (x^{(i)}) - y^{(i)})\frac{\partial}{\partial \theta_j}\{h_\theta(x^{(i)})\}]$

Perhatikan bahwa dalam model linear (sedang dibahas pada halaman yang Anda sebutkan), $\frac{\partial}{\partial \theta_j}(h_\theta(x^{(i)})=[x^{(i)}]_j$

$\frac{\partial}{\partial \theta_j}\lambda\sum_{j=1}^n\theta^2=2\lambda\theta_j$

Jadi untuk kasus linier

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})x^{(i)}_j + \lambda\theta_j]$

Sepertinya Anda dan Andrew mungkin memiliki kesalahan ketik. Ya, setidaknya dua dari kita bertiga tampaknya.

Glen_b -Reinstate Monica
sumber

itu dikonfirmasi, hanya salah ketik pada catatan Andrew, itu harus + tanda. Dan Prof dengan benar menjelaskan semuanya dengan benar termasuk intuisi θ (1-α (λ / m)) yang berarti setiap kali penyusutan ini θ kemudian minus bagian yang biasa sebelum regularisasi diperkenalkan.

Gob00st

4

Sebenarnya jika Anda memeriksa catatan kuliah tepat setelah video, itu menunjukkan rumus dengan benar. Slide yang telah Anda sebaris di sini menunjukkan slide video yang tepat.

Piyush
sumber

coursera.org/learn/machine-learning/supplement/pKAsc/… di sini tautannya ke catatan tepat setelah video menunjukkan formula yang benar.

Gob00st

1

Sebenarnya, saya pikir itu hanya kesalahan ketik.

Pada slide # 16 ia menulis turunan dari fungsi biaya (dengan istilah regularisasi) sehubungan dengan theta tapi itu dalam konteks algoritma Gradient Descent . Karenanya, dia juga mengalikan turunan ini dengan . Perhatikan: Pada baris kedua (slide 16) ia memiliki (seperti yang sudah Anda tulis), dikalikan dengan . Namun, pada baris ketiga istilah yang dikalikan masih negatif meskipun - jika baris kedua benar - tanda-tanda negatif akan dibatalkan. $-\alpha$ $-\lambda\theta$ $-\alpha$

Masuk akal?

Steve S
sumber

Derivasi Fungsi Biaya Regresi Linier Regularisasi per Kursus Pembelajaran Mesin Coursera

Jawaban: