The Vapnik-Chervonenkis (VC) -Dimensi rumus untuk jaringan saraf berkisar dari ke , dengan dalam kasus terburuk, di mana adalah jumlah tepi dan adalah jumlah node. Jumlah sampel pelatihan yang diperlukan untuk memiliki jaminan kuat akan generalisasi adalah linier dengan dimensi VC.
Ini berarti bahwa untuk jaringan dengan milyaran sisi, seperti dalam kasus model pembelajaran yang sukses, dataset pelatihan membutuhkan miliaran sampel pelatihan dalam kasus terbaik, untuk quadrillion dalam kasus terburuk. Set pelatihan terbesar saat ini memiliki sekitar seratus miliar sampel. Karena tidak ada cukup data pelatihan, model pembelajaran yang mendalam tidak mungkin digeneralisasikan. Sebaliknya, mereka overfitting data pelatihan. Ini berarti model tidak akan bekerja dengan baik pada data yang berbeda dengan data pelatihan, yang merupakan properti yang tidak diinginkan untuk pembelajaran mesin.
Mengingat ketidakmampuan belajar yang mendalam untuk digeneralisasi, menurut analisis dimensi VC, mengapa hasil belajar yang dalam begitu menggembirakan? Hanya memiliki akurasi yang tinggi pada beberapa dataset tidak berarti banyak dalam dirinya sendiri. Apakah ada sesuatu yang istimewa tentang arsitektur pembelajaran mendalam yang mengurangi dimensi VC secara signifikan?
Jika Anda merasa analisis dimensi VC tidak relevan, berikan bukti / penjelasan bahwa pembelajaran mendalam adalah generalisasi dan tidak berlebihan. Yaitu apakah memiliki daya ingat DAN presisi yang baik, atau hanya daya ingat yang baik? Pengingatan 100% mudah untuk dicapai, seperti halnya ketepatan 100%. Mendapatkan keduanya mendekati 100% sangat sulit.
Sebagai contoh sebaliknya, berikut adalah bukti bahwa pembelajaran yang mendalam itu berlebihan. Model overfit mudah untuk dibohongi karena telah memasukkan noise deterministik / stokastik. Lihat gambar berikut untuk contoh overfitting.
Juga, lihat jawaban dengan peringkat lebih rendah untuk pertanyaan ini untuk memahami masalah dengan model pakaian berlebih meskipun akurasi yang baik pada data uji.
Beberapa orang menanggapi bahwa regularisasi menyelesaikan masalah dimensi VC yang besar. Lihat pertanyaan ini untuk diskusi lebih lanjut.
Jawaban:
"Jika peta dan medannya tidak setuju, percayalah pada medannya."
Ini tidak benar-benar mengerti mengapa pembelajaran yang mendalam bekerja sebaik itu, tetapi tentu saja konsep lama dari teori pembelajaran seperti dimensi VC tampaknya tidak terlalu membantu.
Masalahnya sedang diperdebatkan, lihat misalnya:
Mengenai masalah contoh permusuhan , masalahnya ditemukan di:
Lebih lanjut dikembangkan di:
Ada banyak pekerjaan lanjutan.
sumber
Tidak, bukan itu yang dikatakan analisis dimensi VC. Analisis dimensi VC memberikan beberapa kondisi yang cukup untuk menjamin generalisasi. Tapi kebalikannya tidak harus begitu. Bahkan jika Anda gagal memenuhi persyaratan tersebut, metode ML masih mungkin menggeneralisasi.
Dengan kata lain: pembelajaran mendalam bekerja lebih baik daripada analisis dimensi VC yang akan mengarahkan Anda pada harapan (lebih baik daripada analisis "prediksi" VC). Itu adalah kekurangan dari analisis dimensi VC, bukan kekurangan dari pembelajaran yang mendalam. Itu tidak menyiratkan bahwa pembelajaran yang mendalam cacat. Sebaliknya, itu berarti bahwa kita tidak tahu mengapa pembelajaran yang mendalam bekerja - dan analisis VC tidak dapat memberikan wawasan yang bermanfaat.
Dimensi VC yang tinggi tidak menyiratkan bahwa pembelajaran yang mendalam dapat dibodohi. Dimensi VC tinggi tidak menjamin apa pun tentang apakah ia dapat dibodohi dalam situasi praktis. Dimensi VC memberikan searah, terikat dalam kasus terburuk: jika Anda memenuhi persyaratan ini, maka hal-hal baik terjadi, tetapi jika Anda tidak memenuhi persyaratan ini, kami tidak tahu apa yang akan terjadi (mungkin hal baik tetap akan terjadi, jika alam berperilaku lebih baik daripada yang terburuk; analisis VC tidak menjanjikan bahwa hal-hal baik tidak dapat / tidak akan terjadi).
Bisa jadi dimensi VC dari ruang model besar (termasuk pola yang sangat kompleks mungkin), tetapi alam dijelaskan oleh pola sederhana, dan algoritma ML mempelajari pola sederhana yang ada di alam (misalnya, karena regularisasi) - - dalam hal ini, dimensi VC akan tinggi tetapi model akan menggeneralisasi (untuk pola tertentu yang ada di alam).
Yang mengatakan ... ada bukti yang berkembang bahwa pembelajaran yang mendalam dapat dibodohi dengan contoh permusuhan. Tapi hati-hati dengan rantai penalaran Anda. Kesimpulan yang Anda gambar tidak mengikuti dari tempat Anda mulai.
sumber
Orang-orang industri tidak memedulikan dimensi VC, hooligan ...
Pada catatan yang lebih serius, meskipun model PAC adalah cara yang elegan untuk berpikir tentang belajar (setidaknya menurut saya), dan cukup kompleks untuk memunculkan konsep dan pertanyaan yang menarik (seperti dimensi VC dan hubungannya dengan kompleksitas sampel) , itu sangat sedikit hubungannya dengan situasi kehidupan nyata.
Ingat bahwa dalam model PAC Anda diminta untuk menangani distribusi sewenang-wenang, ini berarti bahwa algoritma Anda harus menangani distribusi permusuhan. Ketika mencoba mempelajari beberapa fenomena di dunia nyata, tidak ada yang memberi Anda "data permusuhan" untuk mengacaukan hasil Anda, jadi meminta kelas konsep agar PAC bisa dipelajari mungkin terlalu kuat. Kadang-kadang Anda dapat mengikat kesalahan generalisasi secara independen dari dimensi VC, untuk kelas distribusi tertentu. Ini adalah kasus batas margin, yang diformulasikan secara independen dari dimensi VC. Mereka dapat menjanjikan kesalahan generalisasi rendah jika Anda dapat menjamin margin empiris yang tinggi (yang tentu saja, tidak dapat terjadi untuk semua distribusi, misalnya mengambil dua titik dekat pada pesawat dengan tag yang berlawanan, dan memfokuskan distribusi pada mereka).
Jadi, mengesampingkan model PAC dan dimensi VC, saya pikir hype berasal dari fakta bahwa mereka sepertinya bekerja, dan berhasil dalam tugas-tugas yang sebelumnya tidak mungkin (salah satu prestasi terbaru yang muncul di pikiran adalah AlphaGo). Saya tahu sedikit tentang jaring syaraf, jadi saya berharap seseorang dengan pengalaman lebih banyak akan berhasil, tetapi setahu saya belum ada jaminan yang baik (pasti tidak seperti dalam model PAC). Mungkin di bawah asumsi yang tepat seseorang dapat membenarkan secara formal keberhasilan jaring saraf (saya berasumsi ada karya seputar pengobatan formal jaring saraf dan "pembelajaran mendalam", jadi saya berharap orang-orang dengan pengetahuan lebih tentang masalah ini dapat menghubungkan beberapa makalah) .
sumber
Saya tidak tahu dari mana Anda mengambilnya. Secara empiris, generalisasi dipandang sebagai skor (misalnya akurasi) pada data yang tidak terlihat.
Jawaban mengapa CNN digunakan adalah sederhana: CNN bekerja jauh lebih baik daripada yang lain . Lihat ImageNet 2012 misalnya:
Buat classifier yang lebih baik dan orang-orang akan beralih ke itu.
Ini bukan kasusnya. Anda dapat membuat classifier yang sangat sederhana pada dataset sederhana. Tidak akan mungkin untuk mengelabui itu (bahkan tidak peduli apa artinya "mudah"), tetapi juga tidak menarik.
sumber
Jawaban satu kata adalah "regularisasi". Rumus dimensi VC yang naif tidak benar-benar berlaku di sini karena regularisasi mensyaratkan bahwa bobotnya tidak bersifat umum. Hanya sebagian kecil (sangat kecil?) Dari kombinasi berat yang mengalami penurunan yang dapat diterima setelah regularisasi. Dimensi sebenarnya adalah banyak urutan besarnya kurang sebagai hasilnya, sehingga generalisasi dapat terjadi dengan set pelatihan yang kita miliki. Hasil kehidupan nyata menegaskan bahwa overfitting umumnya tidak terjadi.
sumber
Kami membahas makalah: Memahami Deep Learning Membutuhkan Pemikiran Ulang Generalisasi. di
Memikirkan kembali generalisasi membutuhkan meninjau kembali ide-ide lama: pendekatan mekanika statistik dan perilaku belajar yang kompleks Charles H. Martin dan Michael W. Mahoney
Lihat: https://arxiv.org/pdf/1710.09553.pdf
Pada dasarnya, kami berpendapat bahwa batasan VC terlalu longgar karena pendekatan fundamental dan bagaimana batas statistik yang diambil tidak realistis.
Pendekatan yang lebih baik terletak pada Mekanika Statistik, yang mempertimbangkan kelas fungsi yang bergantung pada data, menggunakan batas Termodinamika (bukan hanya batas jumlah besar)
Selain itu, kami juga menunjukkan bagaimana diskontinuitas alami yang sangat membutuhkan mengarah ke fase transisi dalam kurva pembelajaran, yang kami percaya sedang diamati di makalah Google (di atas)
Berkenaan dengan batasan, lihat bagian 4.2 dari makalah kami
"Jelas, jika kita memperbaiki ukuran sampel m dan membiarkan [ukuran kelas fungsi] N → ∞, [atau sebaliknya, perbaiki N, biarkan m → ∞] kita seharusnya tidak mengharapkan hasil yang tidak sepele, karena [ N] menjadi lebih besar tetapi ukuran sampel tetap. Dengan demikian, [dalam Mekanika Statistik] orang biasanya mempertimbangkan kasus bahwa m, N → ∞ sedemikian rupa sehingga α = m / N adalah konstanta yang tetap. "
Artinya, sangat jarang kita hanya menambahkan lebih banyak data (m) ke jaring yang dalam. Kami selalu meningkatkan ukuran net (N) juga, karena kami tahu bahwa kami dapat menangkap fitur / informasi lebih rinci dari data. Alih-alih, kami melakukan dalam praktik apa yang kami perkirakan di koran - ambil batas ukuran besar, dengan rasio m / N tetap (sebagai lawan dari mengatakan memperbaiki m dan membiarkan N meningkat).
Hasil-hasil ini sangat dikenal dalam Mekanika Statistik Pembelajaran. Analisisnya lebih rumit, tetapi hasilnya mengarah pada struktur yang jauh lebih kaya yang menjelaskan banyak fenomena dalam pembelajaran yang mendalam.
Juga, dan khususnya, diketahui bahwa banyak batasan dari statistik menjadi sepele atau tidak berlaku untuk distribusi probabilitas yang tidak mulus, atau ketika variabel mengambil nilai diskrit. Dengan jaringan saraf, perilaku non-trivial muncul karena diskontinuitas (dalam fungsi aktivasi), yang mengarah ke transisi fase (yang muncul dalam batas termodinamika).
Makalah yang kami tulis mencoba menjelaskan ide-ide penting kepada khalayak ilmu komputer.
Vapnik sendiri menyadari bahwa teorinya tidak benar-benar berlaku untuk jaringan saraf ... pada tahun 1994
"Perluasan [dimensi VC] ke jaringan multilayer menghadapi [banyak] kesulitan .. algoritma pembelajaran yang ada tidak dapat dilihat sebagai meminimalkan risiko empiris atas seluruh rangkaian fungsi yang dapat dilaksanakan oleh jaringan ... [karena] itu adalah kemungkinan ... pencarian akan terbatas pada subset dari fungsi-fungsi [ini] ... Kapasitas set ini bisa jauh lebih rendah dari kapasitas seluruh set ... [dan] dapat berubah dengan jumlah pengamatan. Ini mungkin memerlukan teori yang menganggap gagasan kapasitas tidak konstan dengan subset fungsi 'aktif' "
Vapnik, Levin, dan LeCun 1994
http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf
Meskipun tidak mudah untuk diobati dengan teori VC, ini bukan masalah untuk stat mech..dan apa yang mereka gambarkan sangat mirip dengan Energy Landscape Theory dari protein folding. (yang akan menjadi topik makalah masa depan)
sumber
Tampaknya tidak ada yang menunjukkan dalam jawaban di atas, bahwa rumus dimensi VC yang dikutip hanya untuk jaringan saraf 1-lapisan. Dugaan saya adalah bahwa dimensi VC sebenarnya tumbuh secara eksponensial ketika jumlah lapisan L meningkat. Alasan saya didasarkan pada mempertimbangkan jaringan saraf yang dalam di mana fungsi aktivasi digantikan oleh yang jumlahnya banyak. Kemudian tingkat polinomial tersusun tumbuh secara eksponensial seiring dengan meningkatnya lapisan.
sumber