Teorema perkiraan universal untuk jaringan konvolusional

14

Teorema aproksimasi universal adalah hasil yang cukup terkenal untuk jaringan saraf, pada dasarnya menyatakan bahwa berdasarkan beberapa asumsi, suatu fungsi dapat didekati secara seragam oleh jaringan saraf dengan akurasi apa pun.

Apakah ada beberapa hasil analog yang berlaku untuk jaringan saraf convolutional?

neural-networks conv-neural-network approximation Jonas Adler
sumber

7

Ini adalah pertanyaan yang menarik, namun, tidak memiliki klarifikasi yang tepat apa yang dianggap sebagai jaringan saraf convolutional .

Apakah satu-satunya persyaratan bahwa jaringan harus mencakup operasi konvolusi? Apakah itu harus hanya mencakup operasi konvolusi? Apakah operasi pengumpulan diakui? Jaringan konvolusional yang digunakan dalam praktiknya menggunakan kombinasi operasi, seringkali termasuk lapisan yang terhubung penuh (segera setelah Anda memiliki lapisan yang terhubung penuh, Anda memiliki kemampuan perkiraan universal teoretis).

Untuk memberikan Anda beberapa jawaban, pertimbangkan kasus berikut: Lapisan yang sepenuhnya terhubung dengan input dan output direalisasikan menggunakan matriks bobot . Anda dapat mensimulasikan operasi ini menggunakan 2 lapisan konvolusi: $D$ $K$ $W \in \mathbb R ^{K\times D}$

Yang pertama memiliki filter dari bentuk . Elemen dari filter sama dengan , sisanya nol. Lapisan ini mengubah input menjadi ruang menengah dimensi- mana setiap dimensi mewakili produk dengan berat dan input yang sesuai. $K\times D$ $D$ $d$ $k,d$ $W_{k,d}$ $KD$
Lapisan kedua berisi filter dari bentuk . Elemen dari filter adalah yang, sisanya nol. Lapisan ini melakukan penjumlahan produk dari lapisan sebelumnya. $K$ $KD$ $kD\ldots(k+1)D$ $k$

Jaringan konvolusional tersebut mensimulasikan jaringan yang sepenuhnya terhubung dan dengan demikian memiliki kemampuan perkiraan universal yang sama. Terserah Anda untuk mempertimbangkan seberapa berguna contoh seperti itu dalam praktiknya, tetapi saya harap ini menjawab pertanyaan Anda.

Jan Kukacka
sumber

1

Konstruksi seperti itu agak jelas, tetapi hanya berlaku dengan misalnya kondisi batas nol padding. Dengan persyaratan yang lebih alami misalnya kondisi batas periodik (membuat terjemahan operator menjadi sama), maka gagal.

Jonas Adler

1

Ya, konstruksi yang jelas ini mengasumsikan konvolusi hanya diterapkan pada input (tanpa padding). Seperti yang saya katakan, kecuali Anda menentukan apa yang diizinkan dan apa yang tidak di bawah definisi Anda tentang CNN, saya menganggap ini adalah pendekatan yang valid. Juga, perhatikan bahwa implikasi praktis dari UAT sebenarnya tidak ada, jadi saya tidak yakin apakah masuk akal untuk menggali terlalu dalam tentang ini, menentukan berbagai versi CNN dan menunjukkan sesuatu yang serupa untuk masing-masingnya.

Jan Kukacka

5

Tampaknya pertanyaan ini telah dijawab dalam afirmatif dalam artikel baru-baru ini oleh Dmitry Yarotsky: Perkiraan universal peta invarian oleh jaringan saraf .

Artikel tersebut menunjukkan bahwa fungsi terjemahan yang ekivalen dapat didekati secara sewenang-wenang dengan baik oleh jaringan saraf konvolusional karena cukup luas, dalam analogi langsung dengan teorema pendekatan universal klasik.

Jonas Adler
sumber

3

Lihat kertas Universality of Deep Convolutional Neural Networks oleh Ding-Xuan Zhou , yang menunjukkan bahwa jaringan saraf convolutional adalah universal, yaitu, mereka dapat memperkirakan fungsi kontinu hingga akurasi sewenang-wenang ketika kedalaman jaringan saraf cukup besar.

nbro
sumber

1

Ini tampaknya mengasumsikan kondisi batas nol, sehingga hasilnya harus sama dengan jan-kukacka yang disebutkan

Jonas Adler

Teorema perkiraan universal untuk jaringan konvolusional

Jawaban: