Apakah meningkatkan kebisingan dalam data membantu meningkatkan kemampuan belajar jaringan? Apakah ada bedanya atau tergantung pada masalah yang sedang dipecahkan? Bagaimana pengaruhnya terhadap proses generalisasi secara keseluruhan?
Apakah meningkatkan kebisingan dalam data membantu meningkatkan kemampuan belajar jaringan? Apakah ada bedanya atau tergantung pada masalah yang sedang dipecahkan? Bagaimana pengaruhnya terhadap proses generalisasi secara keseluruhan?
Kebisingan dalam data, dalam jumlah yang wajar, dapat membantu jaringan untuk menggeneralisasi dengan lebih baik. Terkadang, ia memiliki efek sebaliknya. Sebagian tergantung pada jenis kebisingan ("benar" vs buatan).
The AI FAQ pada JST memberikan gambaran yang baik. Kutipan:
Kebisingan dalam data aktual tidak pernah merupakan hal yang baik, karena membatasi akurasi generalisasi yang dapat dicapai tidak peduli seberapa luas set pelatihan. Di sisi lain, menyuntikkan kebisingan buatan (jitter) ke dalam input selama pelatihan adalah salah satu dari beberapa cara untuk meningkatkan generalisasi untuk fungsi yang halus ketika Anda memiliki satu set pelatihan kecil.
Di beberapa bidang, seperti visi komputer, adalah umum untuk meningkatkan ukuran pelatihan dengan menyalin beberapa sampel dan menambahkan beberapa suara atau transformasi lainnya.
Kami biasanya berpikir model pembelajaran mesin sebagai pemodelan dua bagian berbeda dari data pelatihan - kebenaran mendasar yang mendasari (sinyal), dan keacakan khusus untuk dataset tersebut (kebisingan).
Pemasangan kedua bagian tersebut meningkatkan akurasi set latihan, namun pemasangan sinyal juga meningkatkan akurasi set tes (dan kinerja dunia nyata) sementara pemasangan noise mengurangi keduanya. Jadi kami menggunakan hal-hal seperti regularisasi dan dropout dan teknik serupa untuk membuatnya lebih sulit untuk menyesuaikan kebisingan, dan jadi lebih cocok dengan sinyal.
Hanya meningkatkan jumlah kebisingan dalam data pelatihan adalah salah satu pendekatan seperti itu, tetapi tampaknya tidak akan berguna. Bandingkan jitter acak dengan peningkatan permusuhan, misalnya; yang pertama akan secara perlahan dan tidak langsung meningkatkan ketahanan sedangkan yang terakhir akan secara dramatis dan langsung meningkatkannya.
PS: Sudah ada beberapa jawaban yang sangat bagus yang disediakan di sini, saya hanya akan menambahkan jawaban ini dengan harapan seseorang akan menemukan ini berguna:
Memperkenalkan noise ke dataset memang dapat memiliki pengaruh positif pada suatu model. Bahkan ini dapat dilihat sebagai melakukan hal yang sama yang biasanya Anda lakukan dengan regulator seperti putus sekolah . Beberapa contoh melakukan hal ini adalah Zur at.al , Cires¸at.al di mana penulis berhasil memasukkan noise ke dalam dataset untuk mengurangi over-fitting.
Tangkapannya adalah mengetahui seberapa banyak kebisingan terlalu banyak. Jika Anda menambahkan terlalu banyak noise, ini mungkin membuat dataset Anda tidak berguna karena dataset yang dihasilkan mungkin tidak lagi memiliki kemiripan yang cukup dengan dataset asli, jadi Anda mungkin juga berlatih pada dataset yang sama sekali berbeda. Dengan demikian terlalu banyak kebisingan dapat dilihat menyebabkan kurang pas, seperti tingkat putus sekolah yang sangat tinggi.
Seperti pepatah; mengubah keseimbangan adalah bumbu kehidupan :).