Identifikasi model jaringan saraf

8

Cukup intuitif bahwa sebagian besar topologi / arsitektur jaringan saraf tidak dapat diidentifikasi. Tapi apa saja hasil yang terkenal di lapangan? Apakah ada kondisi sederhana yang memungkinkan / mencegah pengidentifikasian? Sebagai contoh,

  • semua jaringan dengan fungsi aktivasi nonlinear dan lebih dari satu lapisan tersembunyi tidak dapat diidentifikasi
  • semua jaringan dengan lebih dari dua unit tersembunyi tidak dapat diidentifikasi

Atau hal-hal seperti ini. CATATAN : Saya tidak mengatakan bahwa kondisi ini mencegah pengidentifikasian (meskipun mereka sepertinya kandidat yang cukup baik bagi saya). Mereka hanyalah contoh dari apa yang saya maksud dengan "kondisi sederhana".

Jika ini membantu mempersempit pertanyaan, silakan mempertimbangkan hanya arsitektur umpan-maju dan berulang. Jika ini masih belum cukup, saya akan puas dengan jawaban yang mencakup setidaknya satu arsitektur di antara MLP, CNN dan RNN. Saya sempat melihat-lihat di Web tapi sepertinya satu-satunya diskusi yang saya temukan adalah di Reddit. Ayo, teman-teman, kita bisa melakukan lebih baik daripada Reddit ;-)

DeltaIV
sumber
1
apa tujuan dari latihan akademis ini?
Aksakal
1
Bisakah saya bertanya, apa yang sudah Anda pertimbangkan / periksa dari literatur yang ada? Ini sepertinya pertanyaan yang sangat khusus; referensi yang sangat sedikit relevan yang telah saya lihat terkait dalam literatur identifikasi sistem daripada ML standar (mis. 1 , 2 , 3 ). Bisakah Anda mendefinisikan pertanyaan Anda sedikit lebih banyak dalam konteks ML? Identifikasi sebagian besar merupakan aspek Sistem Kontrol; apakah Anda "hanya" mengacu pada hubungan 1-1?
usεr11852
Saya pikir Anda harus dapat dengan mudah membuktikan hasil ini menggunakan teorema fungsi implisit.
Alex R.
1
@Aksakal apa tujuan menghitung probabilitas bahwa guci kosong pada siang hari, setelah langkah tak terbatas di mana 10 bola ditambahkan dan satu dilepas? . Tidak ada, tapi pertanyaannya menyenangkan. Tidak semua pertanyaan perlu memiliki relevansi praktis, agar layak dijawab. Atau Anda dapat mengatakan bahwa kurangnya pengidentifikasian mencegah Anda melakukan inferensi yang tepat pada bobot NN, tetapi itu akan menjadi pembenaran palsu karena hampir tidak ada yang tertarik ...
DeltaIV
3
@DeltaIV, ini pertanyaan yang valid untuk CV. Masalahnya adalah tidak ada yang peduli untuk memikirkan hal ini, saya khawatir. Semua orang sibuk membangun model dan menghasilkan uang, ketika model berhenti bekerja saat itulah para pemikir AI yang menganggur akan merenungkan identitasnya
Aksakal

Jawaban:

3

FFN linear satu lapis tidak diidentifikasi

Pertanyaan yang telah diedit untuk mengecualikan kasus ini; Saya menyimpannya di sini karena memahami kasus linear adalah contoh sederhana dari fenomena yang menarik.

Pertimbangkan jaringan saraf umpan maju dengan 1 lapisan tersembunyi dan semua aktivasi linier. Tugas ini adalah tugas regresi OLS sederhana.

Jadi kita punya modelnya y^=XSEBUAHB dan tujuannya adalah

minSEBUAH,B12||y-XSEBUAHB||22

untuk beberapa pilihan SEBUAH,B bentuk yang sesuai. SEBUAH adalah bobot input-ke-tersembunyi, dan B adalah bobot tersembunyi-ke-keluaran.

Jelas bahwa elemen-elemen dari matriks berat tidak dapat diidentifikasi secara umum, karena ada sejumlah konfigurasi yang memungkinkan dimana dua pasang matriks SEBUAH,B memiliki produk yang sama.

FFN non- linier, single-layer masih belum teridentifikasi

Membangun dari FFN linear, satu-layer, kami juga dapat mengamati non-pengidentifikasian dalam FFN non- linier , single-layer.

Sebagai contoh, menambahkan a tanhnonlinier ke salah satu aktivasi linier menciptakan jaringan nonlinear. Jaringan ini masih belum teridentifikasi, karena untuk setiap nilai kerugian, permutasi dari bobot dua (atau lebih) neuron pada satu lapisan, dan neuron yang sesuai pada lapisan berikutnya, juga akan menghasilkan nilai kerugian yang sama .

Secara umum, jaringan saraf tidak diidentifikasi

Kita dapat menggunakan alasan yang sama untuk menunjukkan bahwa jaringan saraf tidak diidentifikasi dalam semua parameterisasi yang sangat khusus.

Misalnya, tidak ada alasan khusus bahwa filter konvolusional harus terjadi dalam urutan tertentu. Juga tidak diperlukan bahwa filter konvolusional memiliki tanda khusus, karena bobot berikutnya dapat memiliki tanda sebaliknya untuk "membalikkan" pilihan itu.

Demikian juga, unit dalam RNN dapat diijinkan untuk mendapatkan kerugian yang sama.

Lihat juga: Bisakah kita menggunakan MLE untuk memperkirakan bobot Jaringan Saraf Tiruan?

Sycorax berkata Reinstate Monica
sumber
Saya secara khusus mengecualikan kasus ini (fungsi aktivasi linier) dalam komentar untuk pertanyaan saya, karena sepele untuk mendapatkan model yang dapat diidentifikasi, mulai dari yang ini, yang memberikan prediksi yang persis sama , dengan reparametrization sederhana. Ini bukan "secara intrinsik tidak dapat diidentifikasi", jadi untuk berbicara. Jadi saya secara khusus mengacu pada fungsi aktivasi nonlinier. Tapi saya rasa saya harus memasukkan itu dalam pertanyaan saya, tidak hanya memberikan komentar. Dalam beberapa jam saya akan mengubah pertanyaan saya sesuai.
DeltaIV
Praktik terbaik untuk mengedit pertanyaan Anda untuk mengklarifikasi apa yang Anda tertarik ketahui.
Sycorax berkata Reinstate Monica
Anda benar, saya biasanya melakukannya, tetapi kali ini saya lupa. Salahku.
DeltaIV
4

Setidaknya ada n! optima global ketika memasang jaringan saraf 1-lapisan, terdiri dari nneuron. Ini berasal dari fakta bahwa, jika Anda bertukar dua neuron pada level tertentu, dan kemudian Anda bertukar bobot yang dikaitkan dengan neuron ini pada level berikutnya, Anda akan mendapatkan kecocokan yang sama persis.

RUser4512
sumber