Apa yang dikatakan dimensi VC tentang pembelajaran mendalam?

15

Dalam pembelajaran mesin dasar kita diajarkan "aturan praktis" berikut:

a) ukuran data Anda harus setidaknya 10 kali ukuran dimensi VC dari set hipotesis Anda.

b) jaringan saraf dengan koneksi N memiliki dimensi VC sekitar N.

Jadi ketika sebuah jaringan saraf pembelajaran yang dalam mengatakan, jutaan unit, apakah ini berarti kita harus memiliki, katakanlah, milyaran poin data? Bisakah Anda menjelaskan tentang ini?

Fequish
sumber
Jaringan saraf yang dalam tidak akan memiliki jutaan unit seperti yang Anda nyatakan. Namun, itu akan memiliki jutaan koneksi. Saya akan berasumsi bahwa aturan kedua Anda tidak berlaku untuk jaringan ini, terutama karena sifatnya yang diatur (misalnya CNN dengan dropout).
pir
Saya pikir kuncinya adalah bahwa VC terikat tidak terbatas. Jika terbatas, maka teori PAC memberi tahu kita bahwa belajar itu layak. Berapa banyak data, itu pertanyaan lain.
Vladislavs Dovgalecs

Jawaban:

4

Aturan praktis yang Anda bicarakan tidak dapat diterapkan ke jaringan saraf.

Jaringan saraf memiliki beberapa parameter dasar, yaitu bobot dan biasnya. Jumlah bobot tergantung pada jumlah koneksi antara lapisan jaringan dan jumlah bias tergantung pada jumlah neuron.

Ukuran data yang diperlukan sangat tergantung pada -

  1. Jenis jaringan saraf yang digunakan .
  2. Teknik regularisasi digunakan di internet .
  3. Tingkat pembelajaran yang digunakan dalam melatih jaring.

Ini dikatakan, cara yang lebih tepat dan pasti untuk mengetahui apakah model overfitting adalah untuk memeriksa apakah kesalahan validasi dekat dengan kesalahan pelatihan. Jika ya, maka model tersebut berfungsi dengan baik. Jika tidak, maka model tersebut kemungkinan besar overfitting dan itu berarti Anda perlu mengurangi ukuran model Anda atau memperkenalkan teknik regularisasi.

Azrael
sumber
Anda pasti bercanda ketika mengatakan bahwa cara terbaik untuk memahami jika model overfitting adalah dengan memeriksa apakah kesalahan validasi dekat dengan kesalahan pelatihan.
nbro
6
@nbro, jika Anda memiliki set hold-out yang tepat untuk memeriksa kesalahan validasi aktif, itu adalah ukuran overfitting yang jauh lebih andal untuk jaringan terlatih khusus Anda daripada melalui batas VC yang biasanya sangat longgar.
Dougal
@Dougal Anda hanya mengulangi apa yang Anda katakan dalam jawaban Anda.
pada
3
Bukan jawaban saya @nbro. Tetapi mengingat satu set validasi, Anda bisa mendapatkan ikatan probabilitas tinggi sepele pada kesalahan generalisasi sebenarnya dengan Hoeffding atau serupa, sementara melalui batas VC melibatkan banyak batas atas longgar yang tidak spesifik untuk dataset dan jaringan tertentu yang Anda miliki di tangan.
Dougal