Judul mengatakan semuanya - berapa banyak parameter yang bisa dilatih yang ada di lapisan GRU? Pertanyaan semacam ini banyak muncul ketika mencoba membandingkan model dari tipe lapisan RNN yang berbeda, seperti unit memori jangka pendek (LSTM) vs GRU, dalam hal kinerja per-parameter. Karena...