Jika Anda melihat dokumentasi http://keras.io/optimizers/ ada parameter dalam SGD untuk pembusukan. Saya tahu ini mengurangi tingkat belajar dari waktu ke waktu. Namun, saya tidak tahu bagaimana cara kerjanya tepatnya. Apakah itu nilai yang dikalikan dengan tingkat pembelajaran seperti lr = lr * (1 - decay)
apakah itu eksponensial? Juga bagaimana saya bisa melihat tingkat pembelajaran yang digunakan model saya? Ketika saya mencetak model.optimizer.lr.get_value()
setelah menjalankan pas di beberapa zaman itu memberikan kembali tingkat belajar asli meskipun saya mengatur pembusukan.
Saya juga harus mengatur nesterov = Benar untuk menggunakan momentum atau hanya ada dua jenis momentum yang dapat saya gunakan. Misalnya apakah ada titik untuk melakukan inisgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
sumber
self.iterations
mengacu pada jumlah langkah SGD individu, bukan jumlah zaman, rigt?