Apakah data input yang dikorelasikan menyebabkan overfitting dengan jaringan saraf?

13

Menurut pendapat saya, data input yang berkorelasi harus mengarah ke overfitting di jaringan saraf karena jaringan mempelajari korelasi misalnya kebisingan dalam data.

Apakah ini benar?

Peter234
sumber

Jawaban:

11

Sebenarnya tidak.

Pertanyaannya agak umum, dan menggabungkan dua hal yang tidak benar-benar terkait. Overfitting biasanya dimaksudkan sebagai kualitas yang berlawanan dengan deskripsi umum; dalam arti bahwa jaringan yang kelebihan (atau overtrained) akan memiliki kekuatan generalisasi yang lebih sedikit. Kualitas ini terutama ditentukan oleh arsitektur jaringan, pelatihan dan prosedur validasi. Data dan propertinya hanya masuk sebagai "sesuatu yang terjadi pada prosedur pelatihan". Ini kurang lebih "pengetahuan buku teks"; Anda bisa mencoba "Pengantar Pembelajaran Statistik" oleh James, Witten, Hastie dan Tibshirani. Atau "Pengenalan Pola" oleh Bishop (buku favorit saya tentang topik umum). Atau "Pengenalan Pola dan Pembelajaran Mesin", juga oleh Uskup.

Untuk korelasinya sendiri: Pertimbangkan ruang input yang memiliki dimensi tertentu. Tidak peduli apa pun transformasi yang Anda gunakan, dimensionalitas akan tetap sama - aljabar linier mengatakan demikian. Dalam satu kasus, basis yang diberikan akan sama sekali tidak berkorelasi - ini adalah apa yang Anda dapatkan, ketika Anda mendelegorasikan variabel, atau cukup menerapkan PAT (Principle Axis Transformation.) Ambil buku aljabar linear apa pun untuk ini.

Karena jaringan saraf dengan arsitektur yang sesuai dapat memodelkan fungsi (!) Apa pun, Anda dapat dengan aman berasumsi, bahwa ia juga dapat memodelkan PAT terlebih dahulu dan kemudian melakukan apa pun yang seharusnya dilakukan - misalnya klasifikasi, regresi, dll.

Anda juga dapat mempertimbangkan korelasi fitur, yang harus menjadi bagian dari deskripsi jaringan saraf, karena itu adalah properti dari data. Sifat korelasinya tidak terlalu penting, kecuali jika itu adalah sesuatu yang tidak boleh menjadi bagian dari data. Ini sebenarnya akan menjadi topik yang berbeda - Anda harus memodelkan atau mengukur sesuatu seperti noise di input dan memperhitungkannya.

Jadi, dalam ringkasan no. Data yang terkait artinya Anda harus bekerja lebih keras untuk membuat penanganan data secara teknis lebih sederhana dan lebih efektif. Overfitting dapat terjadi, tetapi dalam tidak akan terjadi karena ada data yang berkorelasi.

kerub
sumber
Maaf, tapi saya masih belum mengerti mengapa. Keraguan saya juga agak umum. Saya mencari jawaban untuk "Bisakah data input berkorelasi berbahaya bagi jaringan saraf?". Di sini Anda mengklaim, "Anda dapat dengan aman berasumsi bahwa itu juga dapat memodelkan PAT pertama kali". Tapi bagaimana Anda membuat asumsi itu. Dan kemudian pertanyaan saya selanjutnya adalah apa yang terjadi jika arsitektur saraf tidak gagal memodelkan PAT?
bytestorm
@bytestorm: pertanyaan pertama Anda berbeda dari yang asli. Input yang berkorelasi dapat membatasi kinerja JST Anda (serta metode lainnya). Tapi itu bukan properti yang melekat dari JST. Adapun pertanyaan kedua, itu kurang asumsi, tetapi hanya penjelasan teladan mengapa JST bisa memodelkan PAT. Dalam latihan saya tidak akan melakukannya seperti itu, atau merekomendasikan untuk melakukannya.
kerub
6

kerub benar dalam hal pernyataannya tentang terlalu pas. Namun, saya pikir pembahasan fitur yang sangat berkorelasi dan JST terlalu menyederhanakan masalah.

Ya, memang benar secara teori bahwa JST dapat mendekati fungsi apa pun. Namun, dalam praktiknya bukan ide yang baik untuk memasukkan banyak fitur yang sangat berkorelasi. Melakukan hal itu akan memperkenalkan banyak redudansi dalam model. Dimasukkannya redundansi semacam itu akan menimbulkan kompleksitas yang tidak perlu dan dengan melakukan hal itu dapat meningkatkan jumlah minimum lokal. Mengingat bahwa fungsi kehilangan JST pada dasarnya tidak mulus, memperkenalkan kekasaran yang tidak perlu bukanlah ide bagus.

Yakub H
sumber