Saya memodelkan 15.000 tweet untuk prediksi sentimen menggunakan LSTM lapisan tunggal dengan 128 unit tersembunyi menggunakan representasi seperti word2vec dengan 80 dimensi. Saya mendapatkan akurasi keturunan (38% dengan acak = 20%) setelah 1 zaman. Lebih banyak pelatihan membuat akurasi validasi mulai menurun ketika akurasi pelatihan mulai naik - tanda yang jelas dari overfitting.
Karena itu saya memikirkan cara untuk melakukan regularisasi. Saya lebih suka tidak mengurangi jumlah unit tersembunyi (128 tampaknya sudah agak rendah). Saat ini saya menggunakan dropout dengan probabilitas 50%, tetapi ini mungkin bisa ditingkatkan. Pengoptimal adalah Adam dengan parameter default untuk Keras ( http://keras.io/optimizers/#adam ).
Apa sajakah cara efektif untuk mengurangi overfitting untuk model ini pada dataset saya?
Jawaban:
Kamu bisa mencoba:
Cara yang baik untuk menyesuaikan jaringan juga dimulai dengan jaringan overfitting dan kemudian mengurangi kapasitas (unit tersembunyi dan ruang embedding) sampai tidak lagi overfits.
sumber