Saya telah membaca beberapa makalah tentang membuat gambar secara manual untuk "mengelabui" jaringan saraf (lihat di bawah).
Apakah ini karena jaringan hanya memodelkan probabilitas bersyarat ?
Jika jaringan dapat memodelkan probabilitas gabungan , akankah kasus seperti itu masih terjadi?
Dugaan saya adalah gambar yang dibuat secara artifisial berbeda dari data pelatihan, sehingga probabilitasnya rendah . Karenanya harus rendah bahkan jika bisa tinggi untuk gambar tersebut.
Memperbarui
Saya sudah mencoba beberapa model generatif, ternyata tidak membantu, jadi saya kira ini konsekuensi dari MLE?
Maksud saya dalam kasus divergensi KL digunakan sebagai fungsi kerugian, nilai mana kecil tidak mempengaruhi kerugian. Jadi untuk gambar yang dibuat yang tidak cocok dengan , nilai dapat berubah-ubah.
Memperbarui
Saya menemukan sebuah blog oleh Andrej Karpathy yang menunjukkan
Hasil ini tidak khusus untuk gambar, ConvNets, dan mereka juga bukan "cacat" dalam Pembelajaran Jauh.
MENJELAJAHI DAN Memanfaatkan CONTOH ADVERSARIAL Deep Neural Networks Mudah Dibodohi: Prediksi Keyakinan Tinggi untuk Gambar yang Tidak Dikenali
Jawaban:
Jenis model yang Anda maksud disebut model 'generatif' sebagai lawan diskriminatif, dan tidak benar-benar meningkatkan data berdimensi tinggi. Bagian dari keberhasilan NN dalam tugas bahasa adalah perpindahan dari model generatif (HMM) melakukan model diskriminatif 'lebih' (misalnya MEMM menggunakan regresi logistik yang memungkinkan data kontekstual untuk digunakan secara efektif https://en.wikipedia.org/ wiki / Hidden_Markov_model # Ekstensi )
Saya berpendapat bahwa alasan mereka dibodohi adalah masalah yang lebih umum. Ini adalah dominasi saat ini dari AI yang digerakkan oleh ML yang dangkal terhadap metode yang lebih canggih. [dalam banyak makalah disebutkan bahwa model ML lainnya juga mudah dibodohi - http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html - Ian Goodfellow]
'model bahasa' yang paling efektif untuk banyak tugas adalah 'kantong kata-kata'. Tidak ada yang akan mengklaim bahwa ini merupakan model bahasa manusia yang bermakna. tidak sulit untuk membayangkan bahwa model semacam ini juga mudah dibodohi.
demikian pula tugas-tugas penglihatan komputer seperti pengenalan objek direvolusi dengan 'kantong kata-kata visual' yang menghancurkan metode yang lebih intensif secara komputasi (yang tidak dapat diterapkan pada kumpulan data besar-besaran).
CNN saya berpendapat 'kantong kata-kata visual' yang lebih baik - seperti yang Anda tunjukkan dalam gambar Anda, kesalahan dilakukan pada fitur level / piksel level rendah; terlepas dari semua hiperbola tidak ada representasi tingkat tinggi di lapisan tersembunyi- (semua orang membuat kesalahan, intinya adalah bahwa seseorang akan membuat 'kesalahan' karena fitur tingkat yang lebih tinggi dan misalnya akan mengenali kartun kucing, yang saya tidak tahu ' t percaya NN akan).
Contoh model visi komputer yang lebih canggih (yang berkinerja lebih buruk daripada NN) adalah misalnya model 'komponen yang dapat dideformasi'.
sumber
Sejauh yang saya tahu, sebagian besar jaringan saraf tidak menggunakan distribusi probabilitas aa priori atas gambar input. Namun Anda dapat mengartikan pemilihan set pelatihan sebagai distribusi probabilitas. Dalam pandangan itu, gambar-gambar yang dibuat secara artifisial ini tidak mungkin dipilih sebagai gambar dalam set-uji. Salah satu cara untuk mengukur 'probabilitas gabungan' adalah dengan secara acak menghasilkan gambar dan memberi label. Masalahnya adalah bahwa mayoritas luas, VAST tidak memiliki label. Jadi untuk mendapatkan jumlah contoh berlabel yang masuk akal akan memakan waktu terlalu lama.
sumber