Saya mengambil kursus Andrew Ng "Pembelajaran Mesin" melalui Coursera beberapa bulan yang lalu, tidak memperhatikan sebagian besar matematika / derivasi dan bukannya berfokus pada implementasi dan kepraktisan. Sejak itu saya mulai kembali mempelajari beberapa teori yang mendasarinya, dan telah meninjau kembali beberapa kuliah Prof. Ng. Saya membaca ceramahnya tentang "Reguler Linear Regression", dan melihat bahwa ia memberikan fungsi biaya sebagai berikut:
Kemudian, ia memberikan gradien berikut untuk fungsi biaya ini:
Saya sedikit bingung tentang bagaimana dia mendapat dari satu ke yang lain. Ketika saya mencoba melakukan derivasi sendiri, saya mendapatkan hasil sebagai berikut:
Perbedaannya adalah tanda 'plus' antara fungsi biaya asli dan parameter regularisasi dalam rumus Prof. Ng berubah menjadi tanda 'minus' dalam fungsi gradiennya, sedangkan itu tidak terjadi pada hasil saya.
Secara intuitif saya mengerti mengapa itu negatif: kita mengurangi parameter theta oleh angka gradien, dan kami ingin parameter regularisasi mengurangi jumlah parameter yang kami ubah untuk menghindari overfitting. Saya hanya sedikit terjebak pada kalkulus yang mendukung intuisi ini.
FYI, Anda dapat menemukan dek di sini , pada slide 15 dan 16.
sumber
Jawaban:
Sekarang
Perhatikan bahwa dalam model linear (sedang dibahas pada halaman yang Anda sebutkan),∂∂θj( hθ( x( i )) = [ x( i )]j
Jadi untuk kasus linier
Sepertinya Anda dan Andrew mungkin memiliki kesalahan ketik. Ya, setidaknya dua dari kita bertiga tampaknya.
sumber
Sebenarnya jika Anda memeriksa catatan kuliah tepat setelah video, itu menunjukkan rumus dengan benar. Slide yang telah Anda sebaris di sini menunjukkan slide video yang tepat.
sumber
Sebenarnya, saya pikir itu hanya kesalahan ketik.
Pada slide # 16 ia menulis turunan dari fungsi biaya (dengan istilah regularisasi) sehubungan dengan theta tapi itu dalam konteks algoritma Gradient Descent . Karenanya, dia juga mengalikan turunan ini dengan . Perhatikan: Pada baris kedua (slide 16) ia memiliki (seperti yang sudah Anda tulis), dikalikan dengan . Namun, pada baris ketiga istilah yang dikalikan masih negatif meskipun - jika baris kedua benar - tanda-tanda negatif akan dibatalkan.- α - λ θ - α
Masuk akal?
sumber