Apa alternatif untuk dimensi VC untuk mengukur kompleksitas jaringan saraf?

16

Saya telah menemukan beberapa cara dasar untuk mengukur kompleksitas jaringan saraf:

Apakah ada alternatif lain?

Lebih disukai:

  • Jika kompleksitas metrik dapat digunakan untuk mengukur jaringan saraf dari paradigma yang berbeda (untuk mengukur backprop, dinamika jaring saraf, korelasi kaskade, dll) pada skala yang sama. Misalnya, VC-dimensi dapat digunakan untuk berbagai jenis pada jaringan (atau bahkan hal-hal selain jaringan saraf) sementara jumlah neuron hanya berguna antara model yang sangat spesifik di mana fungsi aktivasi, sinyal (jumlah dasar vs paku), dan lainnya sifat-sifat jaringan adalah sama.
  • Jika memiliki korespondensi yang bagus dengan ukuran standar kompleksitas fungsi yang dapat dipelajari oleh jaringan
  • Jika mudah untuk menghitung metrik pada jaringan tertentu (yang terakhir ini tidak harus, meskipun.)

Catatan

Pertanyaan ini didasarkan pada pertanyaan yang lebih umum tentang CogSci.SE.

Artem Kaznatcheev
sumber
3
Bukankah kompleksitas juga tergantung pada algoritma pembelajaran? Dimensi VC biasanya diterapkan pada metode dengan fungsi kehilangan cembung. Jika Anda memiliki kerugian non-cembung, Anda bisa mendapatkan dalam situasi di mana model Anda akan dapat memisahkan beberapa poin tetapi Anda belajar algoritma tidak akan pernah menemukan solusi ini. Oleh karena itu saya merasa akan sangat sulit untuk memiliki batas menggunakan struktur jaringan. Saya setuju dengan @tdc bahwa kesalahan generalisasi adalah caranya. Makalah Vapnik tentang teori pembelajaran statistik mungkin merupakan tempat yang baik untuk mulai belajar tentang itu.
Andreas Mueller

Jawaban:

8

Anda mungkin ingin melihat kertas "(Tidak) Bounding the True Error oleh John Langford & Rich Caruana (NIPS, 2001)

Status abstrak:

Kami menyajikan pendekatan baru untuk membatasi tingkat kesalahan sebenarnya dari pengklasifikasi bernilai kontinu berdasarkan batas PAC-Bayes. Metode pertama membangun distribusi melalui pengklasifikasi dengan menentukan seberapa sensitif setiap parameter dalam model terhadap noise. Tingkat kesalahan sebenarnya dari penggolong stokastik yang ditemukan dengan analisis sensitivitas kemudian dapat dibatasi dengan ketat menggunakan ikatan PAC-Bayes. Dalam makalah ini kami mendemonstrasikan metode pada jaringan saraf tiruan dengan hasil peningkatan urutan 2 3 vs batas jaring saraf deterministik terbaik.

Mereka menunjukkan bahwa Anda dapat menerapkan batas gaya PAC-Bayes ke jaringan saraf stokastik. Namun analisis ini hanya berlaku untuk 2-layer feed-forward neural networks dengan fungsi transfer sigmoidal. Dalam hal ini istilah kompleksitas hanya tergantung pada jumlah node dan varians dari bobot. Mereka menunjukkan bahwa untuk pengaturan ini terikat secara efektif memprediksi kapan pelatihan berlebihan akan terjadi. Sayangnya itu tidak benar-benar mengenai salah satu properti "pilihan" Anda!

tdc
sumber
+1 yang terlihat keren - terima kasih, saya akan melihatnya. Tapi saya setuju bahwa itu tidak cocok dengan salah satu properti yang disukai dan pada awalnya tampaknya tidak benar-benar mengukur kompleksitas jaringan sebanyak kinerjanya ... tapi saya kira itu tidak dapat dipisahkan.
Artem Kaznatcheev
Apa yang dilihatnya adalah Kesalahan Generalisasi . Batasan yang dibuat biasanya memiliki istilah yang didasarkan pada kesalahan pelatihan, dan hukuman berdasarkan pada kompleksitas model. Yang Anda minati adalah istilah kompleksitas, tetapi itu akan menjadi unsur dalam hampir setiap ikatan. Video ini menjelaskannya lebih baik daripada yang saya bisa!
tdc
pikir arah ini tidak benar. kesalahan jauh berbeda dari kompleksitas jaringan. meskipun teori yang ada dapat mengaburkan keduanya. contoh sederhana adalah overfitting di mana kesalahan rendah tetapi kompleksitasnya tinggi. juga, kesalahan dapat berperilaku dengan cara yang berlawanan dengan kompleksitas. seperti bias. sepertinya jaringan kecil mungkin meremehkan kesalahan. dan sebagainya
@vzn tetapi kesalahan generalisasi adalah kesalahan pada data yang akan datang - yaitu jika Anda memiliki kesalahan pelatihan yang rendah dan kompleksitas yang tinggi, batas kesalahan Anda akan longgar.
tdc
3

Selain itu, Anda mungkin juga tertarik pada pekerjaan dimensi penghancur lemak yang dilakukan oleh Profesor Peter Bartlett. Berikut ini adalah pengantar untuk analisis kompleksitas jaringan saraf, dalam makalah IEEE 1998: Kompleksitas Sampel Klasifikasi Pola dengan Jaringan Syaraf Tiruan: Ukuran Bobot Lebih Penting daripada Ukuran Jaringan (Bartlett 1998) [ http: //ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=661502]

Shaun Singh
sumber