Menurut pendapat saya, data input yang berkorelasi harus mengarah ke overfitting di jaringan saraf karena jaringan mempelajari korelasi misalnya kebisingan dalam data.
Apakah ini benar?
sumber
Menurut pendapat saya, data input yang berkorelasi harus mengarah ke overfitting di jaringan saraf karena jaringan mempelajari korelasi misalnya kebisingan dalam data.
Apakah ini benar?
Sebenarnya tidak.
Pertanyaannya agak umum, dan menggabungkan dua hal yang tidak benar-benar terkait. Overfitting biasanya dimaksudkan sebagai kualitas yang berlawanan dengan deskripsi umum; dalam arti bahwa jaringan yang kelebihan (atau overtrained) akan memiliki kekuatan generalisasi yang lebih sedikit. Kualitas ini terutama ditentukan oleh arsitektur jaringan, pelatihan dan prosedur validasi. Data dan propertinya hanya masuk sebagai "sesuatu yang terjadi pada prosedur pelatihan". Ini kurang lebih "pengetahuan buku teks"; Anda bisa mencoba "Pengantar Pembelajaran Statistik" oleh James, Witten, Hastie dan Tibshirani. Atau "Pengenalan Pola" oleh Bishop (buku favorit saya tentang topik umum). Atau "Pengenalan Pola dan Pembelajaran Mesin", juga oleh Uskup.
Untuk korelasinya sendiri: Pertimbangkan ruang input yang memiliki dimensi tertentu. Tidak peduli apa pun transformasi yang Anda gunakan, dimensionalitas akan tetap sama - aljabar linier mengatakan demikian. Dalam satu kasus, basis yang diberikan akan sama sekali tidak berkorelasi - ini adalah apa yang Anda dapatkan, ketika Anda mendelegorasikan variabel, atau cukup menerapkan PAT (Principle Axis Transformation.) Ambil buku aljabar linear apa pun untuk ini.
Karena jaringan saraf dengan arsitektur yang sesuai dapat memodelkan fungsi (!) Apa pun, Anda dapat dengan aman berasumsi, bahwa ia juga dapat memodelkan PAT terlebih dahulu dan kemudian melakukan apa pun yang seharusnya dilakukan - misalnya klasifikasi, regresi, dll.
Anda juga dapat mempertimbangkan korelasi fitur, yang harus menjadi bagian dari deskripsi jaringan saraf, karena itu adalah properti dari data. Sifat korelasinya tidak terlalu penting, kecuali jika itu adalah sesuatu yang tidak boleh menjadi bagian dari data. Ini sebenarnya akan menjadi topik yang berbeda - Anda harus memodelkan atau mengukur sesuatu seperti noise di input dan memperhitungkannya.
Jadi, dalam ringkasan no. Data yang terkait artinya Anda harus bekerja lebih keras untuk membuat penanganan data secara teknis lebih sederhana dan lebih efektif. Overfitting dapat terjadi, tetapi dalam tidak akan terjadi karena ada data yang berkorelasi.
kerub benar dalam hal pernyataannya tentang terlalu pas. Namun, saya pikir pembahasan fitur yang sangat berkorelasi dan JST terlalu menyederhanakan masalah.
Ya, memang benar secara teori bahwa JST dapat mendekati fungsi apa pun. Namun, dalam praktiknya bukan ide yang baik untuk memasukkan banyak fitur yang sangat berkorelasi. Melakukan hal itu akan memperkenalkan banyak redudansi dalam model. Dimasukkannya redundansi semacam itu akan menimbulkan kompleksitas yang tidak perlu dan dengan melakukan hal itu dapat meningkatkan jumlah minimum lokal. Mengingat bahwa fungsi kehilangan JST pada dasarnya tidak mulus, memperkenalkan kekasaran yang tidak perlu bukanlah ide bagus.
sumber