Bayangkan Anda menunjukkan pada jaringan saraf gambar singa 100 kali dan diberi label dengan "berbahaya", sehingga mengetahui bahwa singa itu berbahaya.
Sekarang bayangkan bahwa sebelumnya Anda telah menunjukkan jutaan gambar singa dan menandainya sebagai "berbahaya" dan "tidak berbahaya", sehingga kemungkinan singa menjadi berbahaya adalah 50%.
Tetapi 100 kali terakhir telah mendorong jaringan saraf menjadi sangat positif tentang menganggap singa sebagai "berbahaya", sehingga mengabaikan jutaan pelajaran terakhir.
Oleh karena itu, tampaknya ada kekurangan dalam jaringan saraf, di mana mereka dapat berubah pikiran terlalu cepat berdasarkan bukti terbaru. Apalagi kalau bukti sebelumnya ada di tengah.
Apakah ada model jaringan saraf yang melacak berapa banyak bukti yang telah dilihatnya? (Atau apakah ini setara dengan membiarkan laju pembelajaran menurun mana adalah jumlah percobaan?)
Jawaban:
Ya, memang, jaringan saraf sangat rentan terhadap bencana (atau gangguan) bencana . Saat ini, masalah ini sering diabaikan karena jaringan saraf terutama dilatih offline (kadang-kadang disebut pelatihan batch ), di mana masalah ini tidak sering muncul, dan tidak online atau secara bertahap , yang merupakan dasar untuk pengembangan kecerdasan umum buatan .
Ada beberapa orang yang bekerja pada pembelajaran seumur hidup terus-menerus dalam jaringan saraf, yang berusaha untuk mengadaptasi jaringan saraf untuk pembelajaran seumur hidup berkelanjutan, yang merupakan kemampuan model untuk belajar dari aliran data secara terus menerus, sehingga mereka tidak sepenuhnya lupa dengan yang diperoleh sebelumnya pengetahuan sambil mempelajari informasi baru. Lihat, misalnya, makalah Pembelajaran seumur hidup berkelanjutan dengan jaringan saraf: Ulasan (2019), oleh Jerman I. Parisi, Ronald Kemker, Jose L. Part, Christopher Kanan, Stefan Wermter, yang merangkum masalah dan solusi yang ada terkait dengan katastropik lupa jaringan saraf.
sumber
Ya, masalah melupakan contoh pelatihan yang lebih lama adalah karakteristik dari Neural Networks. Saya tidak akan menyebutnya "cacat" karena itu membantu mereka menjadi lebih adaptif dan memungkinkan untuk aplikasi yang menarik seperti transfer belajar (jika jaringan terlalu mengingat pelatihan lama, menyetelnya dengan baik ke data baru akan menjadi tidak berarti).
Dalam praktiknya apa yang ingin Anda lakukan adalah mencampur contoh pelatihan untuk berbahaya dan tidak berbahaya sehingga tidak melihat satu kategori di awal dan satu di akhir.
Prosedur pelatihan standar akan berfungsi seperti ini:
Perhatikan bahwa shuffle di setiap zaman menjamin bahwa jaringan tidak akan melihat contoh pelatihan yang sama dalam urutan yang sama setiap zaman dan bahwa kelas akan dicampur
Sekarang untuk menjawab pertanyaan Anda, ya mengurangi tingkat pembelajaran akan membuat jaringan kurang rentan untuk melupakan pelatihan sebelumnya, tetapi bagaimana ini akan bekerja dalam pengaturan non-online? Agar suatu jaringan dapat konvergen, diperlukan beberapa kali pelatihan (yaitu melihat setiap sampel dalam dataset berkali-kali).
sumber
Apa yang Anda menggambarkan suara seperti itu bisa menjadi kasus yang disengaja dari fine-tuning .
Ada asumsi mendasar yang membuat turunan gradien minibatch berfungsi untuk masalah pembelajaran: Diasumsikan bahwa setiap bets atau jendela temporal dari bets berurutan membentuk pendekatan yang layak terhadap global yang sebenarnya.gradien fungsi kesalahan sehubungan dengan parameterisasi model apa pun. Jika permukaan kesalahan itu sendiri bergerak di jalan besar, yang akan menggagalkan tujuan gradient descent - karena gradient descent adalah algoritma penyempurnaan lokal, semua taruhan dimatikan ketika Anda tiba-tiba mengubah distribusi yang mendasarinya. Dalam contoh yang Anda kutip, melupakan bencana sepertinya merupakan efek setelah memiliki "lupa" titik data yang sebelumnya dilihat, dan merupakan gejala distribusi yang telah berubah, atau kurang terwakili dalam data beberapa fenomena penting , sehingga jarang terlihat relatif terhadap kepentingannya.
Replay pengalaman dari penguatan pembelajaran adalah konsep yang relevan yang mentransfer dengan baik ke domain ini. Berikut ini adalah makalah yang mengeksplorasi konsep ini sehubungan dengan lupa bencana. Selama pengambilan sampel mewakili gradien sebenarnya dengan cukup baik (lihat pelatihan sampel menyeimbangkan ini) dan model memiliki parameter yang cukup, masalah lupa bencana tidak mungkin terjadi. Dalam kumpulan data acak yang diacak dengan penggantian, kemungkinan besar terjadi di mana titik data dari kelas tertentu sangat jarang sehingga mereka tidak mungkin dimasukkan untuk waktu yang lama selama pelatihan, secara efektif menyesuaikan model untuk masalah yang berbeda sampai sampel yang cocok. terlihat lagi.
sumber
Untuk menjawab pertanyaan Anda, saya akan mengatakan: Mungkin dalam teori, tetapi tidak dalam praktik.
Masalahnya adalah Anda hanya mempertimbangkan pelatihan kronologis / berurutan.
Hanya sekali saya menggunakan metode pelatihan sekuensial yang disebut pelatihan online atau Pembelajaran Mesin Online . Itu menggunakan perpustakaan wabbit woppal . Ini adalah fitur (bukan masalah seperti yang Anda pertimbangkan) perpustakaan ini untuk beradaptasi secara kronologis dengan input yang dimasukkan.
Saya bersikeras : dalam hal perpustakaan Woppal Wabbit, itu adalah fitur untuk beradaptasi secara kronologis. Dimaksudkan bahwa ketika Anda mulai mengatakan kepadanya bahwa singa itu berbahaya, maka ia beradaptasi secara konsekuen.
Tetapi dalam semua kasus lain dari latihan kursus, hingga kompetisi yang mencengangkan, saya telah menggunakan subset acak dari data input saya sebagai set pelatihan. Dan ini sangat penting :
Ini adalah bagian penting dari Pembelajaran Mesin yang disebut Cross Validation . Ini adalah cara untuk memperkirakan seberapa bagus Neural Network yang terlatih.
Sehingga untuk memiliki perkiraan yang baik tentang validitas Jaringan Saraf Anda, Anda mengambil subset acak dari data pelatihan Anda, singkatnya, Anda mengambil sekitar 80% dari data Anda untuk pelatihan, dan dengan 20% sisanya Anda mengevaluasi seberapa sering Neural Network yang terlatih memberikan prediksi yang baik.
Dan seseorang juga tidak bisa pergi begitu saja tanpa Validasi Silang, karena kebutuhan untuk mendeteksi Overfitting (yang merupakan masalah lain).
Mungkin bagi Anda sepertinya masalah teoretis yang mungkin, tetapi saya cenderung mengatakan bahwa penggunaan metode validasi silang saat ini membuat kekhawatiran Anda tidak relevan.
sumber