Mengapa pembelajaran mendalam hyped meskipun dimensi VC buruk?

86

The Vapnik-Chervonenkis (VC) -Dimensi rumus untuk jaringan saraf berkisar dari ke , dengan dalam kasus terburuk, di mana adalah jumlah tepi dan adalah jumlah node. Jumlah sampel pelatihan yang diperlukan untuk memiliki jaminan kuat akan generalisasi adalah linier dengan dimensi VC.O(E)O(E2)O(E2V2)EV

Ini berarti bahwa untuk jaringan dengan milyaran sisi, seperti dalam kasus model pembelajaran yang sukses, dataset pelatihan membutuhkan miliaran sampel pelatihan dalam kasus terbaik, untuk quadrillion dalam kasus terburuk. Set pelatihan terbesar saat ini memiliki sekitar seratus miliar sampel. Karena tidak ada cukup data pelatihan, model pembelajaran yang mendalam tidak mungkin digeneralisasikan. Sebaliknya, mereka overfitting data pelatihan. Ini berarti model tidak akan bekerja dengan baik pada data yang berbeda dengan data pelatihan, yang merupakan properti yang tidak diinginkan untuk pembelajaran mesin.

Mengingat ketidakmampuan belajar yang mendalam untuk digeneralisasi, menurut analisis dimensi VC, mengapa hasil belajar yang dalam begitu menggembirakan? Hanya memiliki akurasi yang tinggi pada beberapa dataset tidak berarti banyak dalam dirinya sendiri. Apakah ada sesuatu yang istimewa tentang arsitektur pembelajaran mendalam yang mengurangi dimensi VC secara signifikan?

Jika Anda merasa analisis dimensi VC tidak relevan, berikan bukti / penjelasan bahwa pembelajaran mendalam adalah generalisasi dan tidak berlebihan. Yaitu apakah memiliki daya ingat DAN presisi yang baik, atau hanya daya ingat yang baik? Pengingatan 100% mudah untuk dicapai, seperti halnya ketepatan 100%. Mendapatkan keduanya mendekati 100% sangat sulit.

Sebagai contoh sebaliknya, berikut adalah bukti bahwa pembelajaran yang mendalam itu berlebihan. Model overfit mudah untuk dibohongi karena telah memasukkan noise deterministik / stokastik. Lihat gambar berikut untuk contoh overfitting.

Contoh underfitting, fitting, dan overfitting.

Juga, lihat jawaban dengan peringkat lebih rendah untuk pertanyaan ini untuk memahami masalah dengan model pakaian berlebih meskipun akurasi yang baik pada data uji.

Beberapa orang menanggapi bahwa regularisasi menyelesaikan masalah dimensi VC yang besar. Lihat pertanyaan ini untuk diskusi lebih lanjut.

ya
sumber
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
DW
7
Saya tidak berpikir pertanyaan mengapa sesuatu "hyped" itu bagus. Jawabannya adalah "karena orang". Orang-orang tertarik pada banyak hal karena banyak alasan, termasuk pemasaran.
Luk32
Pembelajaran mendalam bekerja dalam praktik. Mungkin overfiting. Mungkin benar-benar tidak dapat dibenarkan. Mungkin belajar rahasia alam semesta dari dewa eldritch. Tetapi hype datang dari para praktisi yang tiba-tiba dapat menulis 30 baris pada kode dan mengajarkan kamera untuk memindai tanda tangan dan mencocokkannya dengan yang tersimpan untuk memvalidasi transaksi bank. Atau memberi tag orang yang tidak dikenal di foto. Dll. Mungkin Anda pernah mendengar kalimat "itu bukan penghinaan jika itu benar"? Yah itu bukan hype jika berhasil. Ada banyak masalah yang tidak berhasil dan sensasi populer yang berlebihan. Tapi itu berfungsi dalam aplikasi kehidupan nyata.
Stella Biderman
@StellaBiderman kemudahan menggunakan teknik pembelajaran mesin standar baik dan semuanya. Tetapi minat tampaknya lebih berkaitan dengan kemampuan belajar yang seharusnya dari DNN yang mungkin menyaingi kemampuan manusia, yang tampaknya overhype mengingat analisis model VC. Dimensi VC yang tinggi seperti itu menyiratkan bahwa model tidak akan digeneralisasi, dan malah menghafal set data, membuatnya sangat rapuh. Semua makalah contoh permusuhan tampaknya menunjukkan poin ini.
ya
@ kritik Saya tidak yakin bahwa pengeditan sangat membantu. Saya bertaruh, lebih banyak orang yang tahu dimensi VC daripada mengetahui apa artinya VC.
David Richerby

Jawaban:

75

"Jika peta dan medannya tidak setuju, percayalah pada medannya."

Ini tidak benar-benar mengerti mengapa pembelajaran yang mendalam bekerja sebaik itu, tetapi tentu saja konsep lama dari teori pembelajaran seperti dimensi VC tampaknya tidak terlalu membantu.

Masalahnya sedang diperdebatkan, lihat misalnya:

Mengenai masalah contoh permusuhan , masalahnya ditemukan di:

Lebih lanjut dikembangkan di:

Ada banyak pekerjaan lanjutan.

Martin Berger
sumber
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
DW
Ketika Anda mengatakan "Ada banyak pekerjaan lanjutan" yang Anda maksudkan dengan makalah 2014 lalu? Dua makalah pertama yang Anda sebutkan cukup baru. Bisakah Anda memperbarui dengan makalah yang Anda maksud?
VF1
2
Kuat +1 untuk "Jika peta dan medannya tidak setuju, percayalah pada medannya." Model bekerja sangat baik dalam praktik terlepas dari apakah matematika mengatakan mereka harus melakukannya. Dari POV ilmiah, ini terjadi setiap saat dan jika ada yang membuat masalah lebih menarik. Tidak ada yang membaca karya Razborov dan Rudich tentang Natural Proofs dan berkata, "Yah, saya kira P vs NP bukan pertanyaan yang menarik." Mereka pergi dan menemukan bahwa mungkin saja menggunakan geometri aljabar untuk melakukan teori kompleksitas. Dari sudut pandang sains, masalah yang melampaui pemahaman kita adalah lebih baik , bukan lebih buruk.
Stella Biderman
65

"Mengingat ketidakmampuan Deep Learning untuk menggeneralisasi, menurut analisis dimensi VC [...]"

Tidak, bukan itu yang dikatakan analisis dimensi VC. Analisis dimensi VC memberikan beberapa kondisi yang cukup untuk menjamin generalisasi. Tapi kebalikannya tidak harus begitu. Bahkan jika Anda gagal memenuhi persyaratan tersebut, metode ML masih mungkin menggeneralisasi.

Dengan kata lain: pembelajaran mendalam bekerja lebih baik daripada analisis dimensi VC yang akan mengarahkan Anda pada harapan (lebih baik daripada analisis "prediksi" VC). Itu adalah kekurangan dari analisis dimensi VC, bukan kekurangan dari pembelajaran yang mendalam. Itu tidak menyiratkan bahwa pembelajaran yang mendalam cacat. Sebaliknya, itu berarti bahwa kita tidak tahu mengapa pembelajaran yang mendalam bekerja - dan analisis VC tidak dapat memberikan wawasan yang bermanfaat.

Dimensi VC yang tinggi tidak menyiratkan bahwa pembelajaran yang mendalam dapat dibodohi. Dimensi VC tinggi tidak menjamin apa pun tentang apakah ia dapat dibodohi dalam situasi praktis. Dimensi VC memberikan searah, terikat dalam kasus terburuk: jika Anda memenuhi persyaratan ini, maka hal-hal baik terjadi, tetapi jika Anda tidak memenuhi persyaratan ini, kami tidak tahu apa yang akan terjadi (mungkin hal baik tetap akan terjadi, jika alam berperilaku lebih baik daripada yang terburuk; analisis VC tidak menjanjikan bahwa hal-hal baik tidak dapat / tidak akan terjadi).

Bisa jadi dimensi VC dari ruang model besar (termasuk pola yang sangat kompleks mungkin), tetapi alam dijelaskan oleh pola sederhana, dan algoritma ML mempelajari pola sederhana yang ada di alam (misalnya, karena regularisasi) - - dalam hal ini, dimensi VC akan tinggi tetapi model akan menggeneralisasi (untuk pola tertentu yang ada di alam).

Yang mengatakan ... ada bukti yang berkembang bahwa pembelajaran yang mendalam dapat dibodohi dengan contoh permusuhan. Tapi hati-hati dengan rantai penalaran Anda. Kesimpulan yang Anda gambar tidak mengikuti dari tempat Anda mulai.

DW
sumber
6
Dimensi VC tinggi memang menyiratkan lebih sulit untuk digeneralisasi (dalam beberapa hal, setidaknya ketika berhadapan dengan distribusi sewenang-wenang). The kesalahan generalisasi batas bawah persis berarti bahwa untuk jumlah sampel kecil dibandingkan dengan dimensi VC, terdapat distribusi sehingga relatif untuk itu algoritma akan mengalami kesalahan generalisasi tinggi (dengan probabilitas tinggi). Ω(dn)
Ariel
5
-1 untuk "Dimensi VC tinggi tidak menjamin apa pun." Ini tidak benar: dimensi VC tinggi menyiratkan kompleksitas sampel batas bawah untuk pembelajaran PAC. Jawaban yang baik harus membahas distribusi kasus terburuk vs "kehidupan nyata".
Sasho Nikolov
1
@SashoNikolov, poin bagus - terima kasih! Diedit.
DW
Pos ini dalam ulasan berkualitas rendah. Mengingat konten, panjang, suara dan kualitas, ini konyol, menunjuk ini di sini, tetapi mungkin perlu meta, karena ada sesuatu yang benar-benar salah.
Evil
23

Orang-orang industri tidak memedulikan dimensi VC, hooligan ...

Pada catatan yang lebih serius, meskipun model PAC adalah cara yang elegan untuk berpikir tentang belajar (setidaknya menurut saya), dan cukup kompleks untuk memunculkan konsep dan pertanyaan yang menarik (seperti dimensi VC dan hubungannya dengan kompleksitas sampel) , itu sangat sedikit hubungannya dengan situasi kehidupan nyata.

Ingat bahwa dalam model PAC Anda diminta untuk menangani distribusi sewenang-wenang, ini berarti bahwa algoritma Anda harus menangani distribusi permusuhan. Ketika mencoba mempelajari beberapa fenomena di dunia nyata, tidak ada yang memberi Anda "data permusuhan" untuk mengacaukan hasil Anda, jadi meminta kelas konsep agar PAC bisa dipelajari mungkin terlalu kuat. Kadang-kadang Anda dapat mengikat kesalahan generalisasi secara independen dari dimensi VC, untuk kelas distribusi tertentu. Ini adalah kasus batas margin, yang diformulasikan secara independen dari dimensi VC. Mereka dapat menjanjikan kesalahan generalisasi rendah jika Anda dapat menjamin margin empiris yang tinggi (yang tentu saja, tidak dapat terjadi untuk semua distribusi, misalnya mengambil dua titik dekat pada pesawat dengan tag yang berlawanan, dan memfokuskan distribusi pada mereka).

Jadi, mengesampingkan model PAC dan dimensi VC, saya pikir hype berasal dari fakta bahwa mereka sepertinya bekerja, dan berhasil dalam tugas-tugas yang sebelumnya tidak mungkin (salah satu prestasi terbaru yang muncul di pikiran adalah AlphaGo). Saya tahu sedikit tentang jaring syaraf, jadi saya berharap seseorang dengan pengalaman lebih banyak akan berhasil, tetapi setahu saya belum ada jaminan yang baik (pasti tidak seperti dalam model PAC). Mungkin di bawah asumsi yang tepat seseorang dapat membenarkan secara formal keberhasilan jaring saraf (saya berasumsi ada karya seputar pengobatan formal jaring saraf dan "pembelajaran mendalam", jadi saya berharap orang-orang dengan pengetahuan lebih tentang masalah ini dapat menghubungkan beberapa makalah) .

Ariel
sumber
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
DW
15

Mengingat ketidakmampuan Deep Learning untuk menggeneralisasi,

Saya tidak tahu dari mana Anda mengambilnya. Secara empiris, generalisasi dipandang sebagai skor (misalnya akurasi) pada data yang tidak terlihat.

Jawaban mengapa CNN digunakan adalah sederhana: CNN bekerja jauh lebih baik daripada yang lain . Lihat ImageNet 2012 misalnya:

  • CNN: 15,315% (itu adalah contoh awal. CNN jauh lebih baik sekarang. Sekitar 4% kesalahan top-5)
  • Non-CNN Terbaik: 26.172% Top-5-error ( sumber - hingga teknik pengetahuan saya yang tidak menggunakan CNN tidak mendapatkan kesalahan di bawah 25% top-5)

Buat classifier yang lebih baik dan orang-orang akan beralih ke itu.

PEMBARUAN: Saya akan memberikan jawaban kepada siapa pun yang memberikan bukti yang dipublikasikan bahwa pembelajaran mesin secara umum mudah dibodohi, seperti bukti untuk Pembelajaran Jauh ini.

Ini bukan kasusnya. Anda dapat membuat classifier yang sangat sederhana pada dataset sederhana. Tidak akan mungkin untuk mengelabui itu (bahkan tidak peduli apa artinya "mudah"), tetapi juga tidak menarik.

Martin Thoma
sumber
3
Kesalahan rendah tidak menyiratkan generalisasi. Ini adalah kondisi yang diperlukan, tetapi tidak cukup.
ya
3
@Yters Tolong tentukan generalisasi.
Martin Thoma
5
@ ya, komentar ini membuat saya berpikir Anda belum banyak membaca tentang Pembelajaran Mesin. Martin mengatakan akurasi pada data yang tidak terlihat . Anda sedang berbicara tentang akurasi pada data pelatihan. Anda pada dasarnya benar tentang apa itu generalisasi, tetapi harap sadari bahwa semua orang di sini juga memahami hal itu .
Ken Williams
1
@Yters Saya cukup yakin Ken (dan banyak orang di situs ini, termasuk saya) tahu ini. Namun, jika set tes Anda tidak mewakili dataset Anda, Anda tidak dapat membuat pernyataan apa pun tentang generalisasi. Meskipun ada baiknya mengingat hal ini, saya tidak melihat bagaimana ini membantu Anda dengan cara apa pun untuk pertanyaan ini. Anda hanya harus mengasumsikan / memastikan bahwa set tes Anda memang mewakili data Anda pada waktu produksi. Kenyataannya, sangat mudah untuk menunjukkan bahwa Anda dapat membuat classifier apa saja menjadi jelek jika sampel pelatihan tidak mewakili distribusi.
Martin Thoma
2
Itu sudah jelas. Anda tidak dapat mengharapkan model untuk digeneralisasi dengan baik jika itu dilatih tentang divalidasi pada data yang salah. Anda membutuhkan data yang lebih baik, bukan model yang lebih baik.
Emre
9

Jawaban satu kata adalah "regularisasi". Rumus dimensi VC yang naif tidak benar-benar berlaku di sini karena regularisasi mensyaratkan bahwa bobotnya tidak bersifat umum. Hanya sebagian kecil (sangat kecil?) Dari kombinasi berat yang mengalami penurunan yang dapat diterima setelah regularisasi. Dimensi sebenarnya adalah banyak urutan besarnya kurang sebagai hasilnya, sehingga generalisasi dapat terjadi dengan set pelatihan yang kita miliki. Hasil kehidupan nyata menegaskan bahwa overfitting umumnya tidak terjadi.

David Khoo
sumber
2
Saya telah melihat klaim berulang bahwa hasil kehidupan nyata menunjukkan pembelajaran yang mendalam menggeneralisasi. Apa sebenarnya hasil yang menunjukkan generalisasi? Yang saya lihat sejauh ini adalah bahwa DL mencapai tingkat kesalahan rendah pada dataset tertentu, yang tidak dengan sendirinya berarti bahwa DL menggeneralisasi.
yters
3
itu menunjukkan hasil yang baik ("baik" = lebih baik daripada metode ML lainnya) pada data yang tidak dilatih . Saya tidak yakin bagaimana lagi Anda ingin mengukur generalisasi secara praktis.
lvilnis
3

Kami membahas makalah: Memahami Deep Learning Membutuhkan Pemikiran Ulang Generalisasi. di

Memikirkan kembali generalisasi membutuhkan meninjau kembali ide-ide lama: pendekatan mekanika statistik dan perilaku belajar yang kompleks Charles H. Martin dan Michael W. Mahoney

Lihat: https://arxiv.org/pdf/1710.09553.pdf

Pada dasarnya, kami berpendapat bahwa batasan VC terlalu longgar karena pendekatan fundamental dan bagaimana batas statistik yang diambil tidak realistis.

Pendekatan yang lebih baik terletak pada Mekanika Statistik, yang mempertimbangkan kelas fungsi yang bergantung pada data, menggunakan batas Termodinamika (bukan hanya batas jumlah besar)

Selain itu, kami juga menunjukkan bagaimana diskontinuitas alami yang sangat membutuhkan mengarah ke fase transisi dalam kurva pembelajaran, yang kami percaya sedang diamati di makalah Google (di atas)

Berkenaan dengan batasan, lihat bagian 4.2 dari makalah kami

"Jelas, jika kita memperbaiki ukuran sampel m dan membiarkan [ukuran kelas fungsi] N → ∞, [atau sebaliknya, perbaiki N, biarkan m → ∞] kita seharusnya tidak mengharapkan hasil yang tidak sepele, karena [ N] menjadi lebih besar tetapi ukuran sampel tetap. Dengan demikian, [dalam Mekanika Statistik] orang biasanya mempertimbangkan kasus bahwa m, N → ∞ sedemikian rupa sehingga α = m / N adalah konstanta yang tetap. "

Artinya, sangat jarang kita hanya menambahkan lebih banyak data (m) ke jaring yang dalam. Kami selalu meningkatkan ukuran net (N) juga, karena kami tahu bahwa kami dapat menangkap fitur / informasi lebih rinci dari data. Alih-alih, kami melakukan dalam praktik apa yang kami perkirakan di koran - ambil batas ukuran besar, dengan rasio m / N tetap (sebagai lawan dari mengatakan memperbaiki m dan membiarkan N meningkat).

Hasil-hasil ini sangat dikenal dalam Mekanika Statistik Pembelajaran. Analisisnya lebih rumit, tetapi hasilnya mengarah pada struktur yang jauh lebih kaya yang menjelaskan banyak fenomena dalam pembelajaran yang mendalam.

Juga, dan khususnya, diketahui bahwa banyak batasan dari statistik menjadi sepele atau tidak berlaku untuk distribusi probabilitas yang tidak mulus, atau ketika variabel mengambil nilai diskrit. Dengan jaringan saraf, perilaku non-trivial muncul karena diskontinuitas (dalam fungsi aktivasi), yang mengarah ke transisi fase (yang muncul dalam batas termodinamika).

Makalah yang kami tulis mencoba menjelaskan ide-ide penting kepada khalayak ilmu komputer.

Vapnik sendiri menyadari bahwa teorinya tidak benar-benar berlaku untuk jaringan saraf ... pada tahun 1994

"Perluasan [dimensi VC] ke jaringan multilayer menghadapi [banyak] kesulitan .. algoritma pembelajaran yang ada tidak dapat dilihat sebagai meminimalkan risiko empiris atas seluruh rangkaian fungsi yang dapat dilaksanakan oleh jaringan ... [karena] itu adalah kemungkinan ... pencarian akan terbatas pada subset dari fungsi-fungsi [ini] ... Kapasitas set ini bisa jauh lebih rendah dari kapasitas seluruh set ... [dan] dapat berubah dengan jumlah pengamatan. Ini mungkin memerlukan teori yang menganggap gagasan kapasitas tidak konstan dengan subset fungsi 'aktif' "
Vapnik, Levin, dan LeCun 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

Meskipun tidak mudah untuk diobati dengan teori VC, ini bukan masalah untuk stat mech..dan apa yang mereka gambarkan sangat mirip dengan Energy Landscape Theory dari protein folding. (yang akan menjadi topik makalah masa depan)

Charles Martin
sumber
Ini terdengar menarik, tetapi saya tidak yakin saya mengikuti argumen Anda. Bisakah Anda menguraikan kalimat pertama, yaitu, tentang bagaimana pendekatan fundamental / batas statistik tidak realistis, dengan cara mandiri yang tidak memerlukan pemahaman mekanika statistik? Asumsi apa yang dibuat batas VC, dan mengapa itu tidak realistis? Mungkin Anda dapat mengedit jawaban Anda untuk memasukkan informasi itu?
DW
Saya menambahkan referensi ke karya asli oleh Vapnik dan LeCun (1994) yang membahas masalah ini.
Charles Martin
Dan menambahkan beberapa klarifikasi.
Charles Martin
1

Tampaknya tidak ada yang menunjukkan dalam jawaban di atas, bahwa rumus dimensi VC yang dikutip hanya untuk jaringan saraf 1-lapisan. Dugaan saya adalah bahwa dimensi VC sebenarnya tumbuh secara eksponensial ketika jumlah lapisan L meningkat. Alasan saya didasarkan pada mempertimbangkan jaringan saraf yang dalam di mana fungsi aktivasi digantikan oleh yang jumlahnya banyak. Kemudian tingkat polinomial tersusun tumbuh secara eksponensial seiring dengan meningkatnya lapisan.

Raja Yan Yin
sumber