Misalkan kita berada dalam situasi berikut. Kami memiliki beberapa data , di mana setiap dapat berupa angka atau vektor, dan kami ingin menentukan fungsi yang mendekati hubungan , dalam arti bahwa kuadrat terkecil kesalahan:x i f f ( x i ) ≈ y i{xi,yi}xiff(xi)≈yi
12∑saya( ysaya- f( xsaya) )2
kecil.
Sekarang, pertanyaannya adalah apa yang kita inginkan dari domain menjadi. Pilihan yang merosot untuk domain hanyalah poin dalam data pelatihan kami. Dalam hal ini, kita dapat mendefinisikan , yang mencakup seluruh domain yang diinginkan, dan dilakukan dengan itu. Putaran tentang cara untuk sampai pada jawaban ini adalah dengan melakukan gradient descent dengan ruang diskrit ini sebagai domain. Ini membutuhkan sedikit perubahan dalam sudut pandang. Mari kita lihat kerugian sebagai fungsi dari titik true dan prediksi (untuk saat ini, bukan fungsi, tetapi hanya nilai prediksi)f ( x i ) = y y f fff( xsaya) = yy ff
L ( f; y) = 12( y- f)2
dan kemudian ambil gradien sehubungan dengan prediksi
∇fL ( f; y) = f- y
Kemudian pembaruan gradien, mulai dari nilai awal adalahy0
y1=y0−∇f(y0,y)=y0−(y0−y)=y
Jadi kami memulihkan prediksi sempurna kami dalam langkah gradien dengan pengaturan ini, yang bagus!
Cacat di sini adalah, tentu saja, bahwa kita ingin didefinisikan pada lebih dari sekedar titik data pelatihan kami. Untuk melakukan ini, kita harus membuat beberapa konsesi, karena kita tidak dapat mengevaluasi fungsi kerugian, atau gradiennya, pada titik mana pun selain dari kumpulan data pelatihan kita. f
Ide besar adalah untuk lemah perkiraan . ∇L
Start
dengan tebakan awal pada , hampir selalu fungsi konstan sederhana , ini didefinisikan di mana-mana. Sekarang buat dataset kerja baru dengan mengevaluasi gradien fungsi kerugian pada data pelatihan, menggunakan tebakan awal untuk :ff(x)=f0f
W={xi,f0−y}
Now approximate
∇L dengan memasang lemah pelajar untuk . Katakanlah kita mendapatkan pendekatan . Kami telah memperoleh ekstensi data di seluruh domain dalam bentuk , meskipun kami telah kehilangan presisi di titik-titik pelatihan, karena kami cocok dengan pelajar kecil.WF≈∇LWF(X)
Finally
, gunakan sebagai pengganti dalam pembaruan gradien di seluruh domain:F∇Lf0
f1(x)=f0(x)−F(x)
Kami keluar , perkiraan baru , sedikit lebih baik dari . Mulai lagi dengan , dan sampai puas. f f 0 f 1f1ff0f1
Mudah-mudahan, Anda melihat bahwa yang benar-benar penting adalah mendekati gradien dari kerugian. Dalam kasus minimalisasi kuadrat, ini mengambil bentuk residu mentah, tetapi dalam kasus yang lebih canggih tidak. Mesin masih berlaku. Selama seseorang dapat membangun algoritma untuk menghitung kerugian dan gradien kerugian pada data pelatihan, kita dapat menggunakan algoritma ini untuk memperkirakan suatu fungsi yang meminimalkan kerugian tersebut.