Pertanyaan yang diberi tag mini-batch-gradient-descent

Jendela geser mengarah ke overfitting di LSTM?

Apakah saya akan mengenakan LSTM saya jika saya melatihnya melalui pendekatan sliding-window? Mengapa orang tampaknya tidak menggunakannya untuk LSTM? Untuk contoh yang disederhanakan, asumsikan bahwa kita harus memprediksi urutan karakter: A B C D E F G H I J K L M N O P Q R S T U V W X Y...

lstm backpropagation mini-batch-gradient-descent