Ini mungkin tergantung pada apa yang orang maksudkan dengan "teori fundamental", tetapi tidak ada kekurangan teori kuantitatif yang ketat dalam pembelajaran mendalam, beberapa di antaranya sangat umum, meskipun mengklaim sebaliknya.
Salah satu contoh yang baik adalah bekerja di sekitar metode berbasis energi untuk belajar. Lihat misalnya karya Neal & Hinton tentang inferensi variasional dan energi bebas: http://www.cs.toronto.edu/~fritz/absps/emk.pdf
Juga panduan untuk meminimalkan energi ini sebagai "kerangka teori umum untuk banyak model pembelajaran" oleh Yann LeCun dan rekannya: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf
Dan kerangka umum untuk model berbasis energi oleh Scellier dan Bengio:
https://arxiv.org/pdf/1602.05179.pdf
Ada juga karya Hinton & Sejnowski sebelumnya yang menunjukkan secara analitis bahwa jaringan yang diilhami Hopfield tertentu + algoritma pembelajaran yang tidak diawasi dapat memperkirakan inferensi optimal Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%2019ference -646.pdf
Ada banyak makalah yang menghubungkan pembelajaran mendalam dengan ilmu saraf teoretis juga, seperti yang berikut, yang menunjukkan bahwa efek backpropagation dapat dicapai dalam arsitektur saraf yang masuk akal secara biologis:
https://arxiv.org/pdf/1411.0247.pdf
Tentu saja ada banyak pertanyaan terbuka dan tidak ada satu teori tunggal yang tidak bertentangan, tetapi hal yang sama dapat dikatakan untuk hampir semua bidang.
Sebuah pertanyaan kunci yang tetap ada dalam teori pembelajaran mendalam adalah mengapa model besar seperti itu (dengan lebih banyak parameter daripada titik data) tidak sesuai dengan dataset yang kami gunakan.
Teori klasik berdasarkan ukuran kompleksitas tidak menjelaskan perilaku jaringan saraf praktis. Misalnya perkiraan dimensi VC memberikan batas generalisasi yang kosong. Sejauh yang saya tahu, batas ketat (atas dan bawah) pada dimensi VC diberikan dalam [1] dan berada di urutan jumlah bobot dalam jaringan. Jelas kompleksitas kasus terburuk ini tidak dapat menjelaskan bagaimana mis. Resnet besar generalisasi pada CIFAR atau MNIST.
Baru-baru ini ada upaya lain untuk memastikan generalisasi untuk jaringan saraf, misalnya terkait dengan kernel tangen saraf atau dengan berbagai ukuran norma pada bobot. Masing-masing, ini ditemukan tidak berlaku untuk jaringan berukuran praktis dan memiliki sifat tidak memuaskan lainnya [2].
Ada beberapa pekerjaan dalam kerangka PAC Bayes untuk batas yang tidak kosong, misalnya [3]. Pengaturan ini, bagaimanapun, membutuhkan beberapa pengetahuan tentang jaringan yang terlatih dan berbeda dalam hal analisis PAC klasik.
Beberapa aspek lain:
optimisasi: bagaimana kita mendapatkan solusi 'baik' dari gradient descent pada masalah non-cembung seperti itu? (Ada beberapa jawaban untuk ini dalam literatur terbaru)
interpretabilitas: Bisakah kita menjelaskan secara intuitif apa yang dipikirkan oleh jaringan? (Bukan daerah saya)
referensi (tidak lengkap):
sumber
Saya ingin menunjukkan bahwa tidak ada teori yang baik tentang mengapa pembelajaran mesin bekerja secara umum. Batas VC masih menggunakan model, tetapi kenyataan tidak cocok dengan cita-cita matematika ini. Pada akhirnya ketika datang ke aplikasi semuanya turun ke hasil emperical. Bahkan mengukur kesamaan antara gambar menggunakan algoritma yang konsisten dengan pemahaman intuitif manusia sangat sulit
Pokoknya NN tidak bekerja dengan baik dalam bentuk mereka yang terhubung sepenuhnya. Semua jaringan yang sukses memiliki semacam regularisasi yang dibangun ke dalam arsitektur jaringan (CNN, LSTM, dll).
sumber