Siapa yang menemukan keturunan gradien stokastik?

36

Saya mencoba memahami sejarah keturunan Gradient dan Stochastic gradient descent . Keturunan gradien ditemukan di Cauchy pada tahun 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . hlm. 536–538 Untuk informasi lebih lanjut lihat di sini .

Sejak itu metode gradient descent terus berkembang dan saya tidak terbiasa dengan sejarah mereka. Khususnya saya tertarik pada penemuan keturunan gradien stokastik.

Referensi yang dapat digunakan dalam makalah akademis lebih dari disambut.

Dl
sumber
3
Saya belajar tentang SGD sebelum pembelajaran mesin, jadi pasti sebelum semua ini
Aksakal
2
Yah, Cauchy pasti menemukan GD sebelum pembelajaran mesin jadi saya tidak akan terkejut bahwa SGC juga ditemukan sebelumnya.
DaL
3
Kiefer-Wolfowitz Stochastic Approximation en.wikipedia.org/wiki/Stochastic_approximation adalah sebagian besar jalan di sana, selain tidak secara langsung "mensimulasikan" untuk gradien.
Mark L. Stone
3
"Stochastic Gradient Descent" dari ML sama dengan "Stochastic Subgradient Method" dari optimasi cembung. Dan metode subgradien ditemukan selama 1960-1970 di Uni Soviet, Moskow. Mungkin juga di USA. Saya melihat video di mana Boris Polyak (dia adalah penulis metode heavy-ball) mengatakan bahwa dia (dan semua orang) mulai memikirkan metode subgradien pada tahun 1970. ( youtube.com/watch?v=2PcidcPxvyk&t=1963s ) ....
bruziuz

Jawaban:

27

Stochastic Gradient Descent didahului oleh Stochastic Approximation seperti yang pertama kali dijelaskan oleh Robbins dan Monro dalam makalahnya, A Stochastic Approximation Method . Kiefer dan Wolfowitz kemudian menerbitkan makalah mereka, Estimasi Stochastic dari Maksimum dari Fungsi Regresiyang lebih dikenali oleh orang-orang yang akrab dengan varian ML dari Stochastic Approximation (yaitu Stochastic Gradient Descent), seperti yang ditunjukkan oleh Mark Stone dalam komentar. 60-an melihat banyak penelitian sepanjang nada itu - Dvoretzky, Powell, Blum semua hasil yang dipublikasikan yang kami terima begitu saja hari ini. Ini adalah lompatan yang relatif kecil untuk mendapatkan dari metode Robbins dan Monro ke metode Kiefer Wolfowitz, dan hanya membingkai ulang masalah untuk kemudian sampai ke Stochastic Gradient Descent (untuk masalah regresi). Makalah di atas secara luas dikutip sebagai anteseden Stochastic Gradient Descent, seperti yang disebutkan dalam makalah tinjauan oleh Nocedal, Bottou, dan Curtis , yang memberikan perspektif sejarah singkat dari sudut pandang Machine Learning.

Saya percaya bahwa Kushner dan Yin dalam buku mereka Stochastic Approximation dan Recursive Algorithms and Applications menyarankan bahwa gagasan tersebut telah digunakan dalam teori kontrol sejauh 40-an, tetapi saya tidak ingat apakah mereka memiliki kutipan untuk itu atau jika itu adalah kutipan. anekdotal, saya juga tidak memiliki akses ke buku mereka untuk mengonfirmasi hal ini.

Herbert Robbins dan Sutton Monro Metode Pendekatan Stochastic The Annals of Mathematical Statistics, Vol. 22, No. 3. (Sep., 1951), hlm. 400-407.

J. Kiefer dan J. Wolfowitz Estimasi Stochastic dari Maksimum Fungsi Regresi Ann. Matematika Statist. Volume 23, Nomor 3 (1952), 462-466

Leon Bottou dan Frank E. Curtis dan Metode Optimalisasi Nocedal Jorge untuk Pembelajaran Mesin Skala Besar , Laporan Teknis, arXiv: 1606.04838

David Kozak
sumber
Bisakah Anda memberikan referensi yang tepat? Dan untuk penemuan SGD, tampaknya berada di usia 40-an tetapi tidak jelas oleh siapa dan di mana?
DaL
Tentu saja secara luas diyakini Robbins dan Monro pada tahun 1951 dengan Algoritma Perkiraan Stochastic . Saya telah mendengar bahwa sesuatu yang serupa muncul dalam literatur teori kontrol pada tahun 40-an (seperti yang saya katakan, saya pikir dari Kushner dan Yin tetapi saya tidak memiliki buku itu berguna), tetapi selain dari itu satu tempat semua orang tampaknya mengutip Robbins dan Monro, termasuk Nocedal et al. referensi yang saya tautkan.
David Kozak
Jadi kandidat utama kami sekarang adalah H. Robbins dan S. Monro. Metode Estimasi Stokastik. Annals of Matematika Statistik, 22 (3): 400-407, 1951., seperti yang ditulis dalam Nocedal, Bottou, dan Curtis dalam pdfs.semanticscholar.org/34dd/...
Dal
Saya jadi ini disebut sebagai asal-usul SGD tetapi dalam ringkasan (sebenarnya abstrak dalam istilah hari ini) tertulis "M (x) diasumsikan sebagai fungsi monoton x tetapi tidak diketahui oleh eksperimen, dan itu diinginkan untuk menemukan solusi x = 0 dari persamaan thc M (x) = a, di mana a adalah konstanta yang diberikan. " Jika M (x) tidak diketahui, seseorang tidak dapat menurunkannya. Mungkin itu leluhur kuno lainnya?
Dal
Setuju, dalam beberapa hal. Kiefer Wolfowitz menggunakan analisis ini untuk menghasilkan makalah mereka yang lebih dikenal dalam bentuk yang kita lihat hari ini. Seperti yang disebutkan di atas oleh Mark Stone. Makalah mereka dapat ditemukan di sini: projecteuclid.org/download/pdf_1/euclid.aoms/1177729392 .
David Kozak
14

Lihat

Rosenblatt F. Perceptron: Model probabilistik untuk penyimpanan informasi dan pengorganisasian di otak. Ulasan psikologis. 1958 November; 65 (6): 386.

Saya tidak yakin apakah SGD ditemukan sebelum ini dalam literatur optimisasi — mungkin memang — tetapi di sini saya percaya dia menggambarkan aplikasi SGD untuk melatih perceptron.

Jika sistem berada dalam kondisi penguatan positif, maka AV positif ditambahkan ke nilai-nilai semua unit A-aktif dalam set sumber respons "on", sementara AV negatif ditambahkan ke unit aktif di sumber - set respons "tidak aktif".

Dia menyebut ini "dua jenis penguatan".

Dia juga merujuk buku dengan lebih banyak tentang "sistem bivalen" ini.

Rosenblatt F. Perceptron: teori keterpisahan statistik dalam sistem kognitif (Proyek Para). Laboratorium Aeronautika Cornell; 1958.

pengguna0
sumber
1
Langkah maju yang bagus, terima kasih! Saya menemukan referensi online pertama di sini citeseerx.ist.psu.edu/viewdoc/… Saya akan membahasnya. Namun, saya berharap untuk menemukan algoritma yang lebih eksplisit dan formal.
DaL
3
+1 untuk komentar tentang pengoptimalan. Karena ini digunakan dalam Pembelajaran Mesin untuk melakukan optimasi dan karena optimasi menjadi masalah besar 40 atau 50 tahun sebelum ML - dan komputer juga memasukkan gambar tentang waktu yang sama - yang sepertinya merupakan petunjuk yang baik.
Wayne
Saya tidak mengerti mengapa Anda mengatakan bahwa kutipan ini menggambarkan SGD.
Amuba kata Reinstate Monica
@amoeba semoga saya tidak membuat kesalahan, hanya membaca sepintas lalu, tapi saya pikir dia menggambarkan pembaruan perceptron yang hanya SGD dengan tingkat pembelajaran yang konstan.
user0
3
Betul sekali. Saya hanya mengatakan bahwa aspek stokastik tidak jelas dari kutipan yang Anda pilih. Maksud saya, "stokastik" GD berarti bahwa pembaruan dilakukan satu sampel pelatihan pada satu waktu (alih-alih menghitung gradien menggunakan semua sampel pelatihan yang tersedia). Algoritme yang diberikan dalam en.wikipedia.org/wiki/Perceptron#Steps membuat aspek "stochastic" ini segera dihapus di langkah # 2.
Amoeba berkata Reinstate Monica