Sementara melatih model dalam pembelajaran mesin, mengapa kadang-kadang menguntungkan untuk menjaga ukuran bets menjadi kekuatan 2? Saya pikir akan lebih baik menggunakan ukuran yang paling pas di memori GPU / RAM Anda.
Jawaban ini mengklaim bahwa untuk beberapa paket, kekuatan 2 lebih baik sebagai ukuran batch. Dapatkah seseorang memberikan penjelasan terperinci / tautan ke penjelasan terperinci untuk ini? Apakah ini berlaku untuk semua algoritme pengoptimalan (gradient descent, backpropagation, dll) atau hanya sebagian saja?
sumber