Perilaku aneh dengan Adam optimizer saat berlatih terlalu lama

Saya mencoba untuk melatih satu perceptron (1000 unit input, 1 output, tanpa lapisan tersembunyi) pada 64 titik data yang dihasilkan secara acak. Saya menggunakan Pytorch menggunakan pengoptimal Adam: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64,...