Saya mencoba memahami sejarah keturunan Gradient dan Stochastic gradient descent . Keturunan gradien ditemukan di Cauchy pada tahun 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . hlm. 536–538 Untuk informasi lebih lanjut lihat di sini .
Sejak itu metode gradient descent terus berkembang dan saya tidak terbiasa dengan sejarah mereka. Khususnya saya tertarik pada penemuan keturunan gradien stokastik.
Referensi yang dapat digunakan dalam makalah akademis lebih dari disambut.
Jawaban:
Stochastic Gradient Descent didahului oleh Stochastic Approximation seperti yang pertama kali dijelaskan oleh Robbins dan Monro dalam makalahnya, A Stochastic Approximation Method . Kiefer dan Wolfowitz kemudian menerbitkan makalah mereka, Estimasi Stochastic dari Maksimum dari Fungsi Regresiyang lebih dikenali oleh orang-orang yang akrab dengan varian ML dari Stochastic Approximation (yaitu Stochastic Gradient Descent), seperti yang ditunjukkan oleh Mark Stone dalam komentar. 60-an melihat banyak penelitian sepanjang nada itu - Dvoretzky, Powell, Blum semua hasil yang dipublikasikan yang kami terima begitu saja hari ini. Ini adalah lompatan yang relatif kecil untuk mendapatkan dari metode Robbins dan Monro ke metode Kiefer Wolfowitz, dan hanya membingkai ulang masalah untuk kemudian sampai ke Stochastic Gradient Descent (untuk masalah regresi). Makalah di atas secara luas dikutip sebagai anteseden Stochastic Gradient Descent, seperti yang disebutkan dalam makalah tinjauan oleh Nocedal, Bottou, dan Curtis , yang memberikan perspektif sejarah singkat dari sudut pandang Machine Learning.
Saya percaya bahwa Kushner dan Yin dalam buku mereka Stochastic Approximation dan Recursive Algorithms and Applications menyarankan bahwa gagasan tersebut telah digunakan dalam teori kontrol sejauh 40-an, tetapi saya tidak ingat apakah mereka memiliki kutipan untuk itu atau jika itu adalah kutipan. anekdotal, saya juga tidak memiliki akses ke buku mereka untuk mengonfirmasi hal ini.
sumber
Lihat
Saya tidak yakin apakah SGD ditemukan sebelum ini dalam literatur optimisasi — mungkin memang — tetapi di sini saya percaya dia menggambarkan aplikasi SGD untuk melatih perceptron.
Dia menyebut ini "dua jenis penguatan".
Dia juga merujuk buku dengan lebih banyak tentang "sistem bivalen" ini.
sumber