Mengapa jaringan saraf mudah tertipu?

13

Saya telah membaca beberapa makalah tentang membuat gambar secara manual untuk "mengelabui" jaringan saraf (lihat di bawah).

Apakah ini karena jaringan hanya memodelkan probabilitas bersyarat ? Jika jaringan dapat memodelkan probabilitas gabungan , akankah kasus seperti itu masih terjadi?hal(y|x)
hal(y,x)

Dugaan saya adalah gambar yang dibuat secara artifisial berbeda dari data pelatihan, sehingga probabilitasnya rendah . Karenanya harus rendah bahkan jika bisa tinggi untuk gambar tersebut.hal(x)hal(y,x)hal(y|x)

Memperbarui

Saya sudah mencoba beberapa model generatif, ternyata tidak membantu, jadi saya kira ini konsekuensi dari MLE?

Maksud saya dalam kasus divergensi KL digunakan sebagai fungsi kerugian, nilai mana kecil tidak mempengaruhi kerugian. Jadi untuk gambar yang dibuat yang tidak cocok dengan , nilai dapat berubah-ubah.halθ(x)haldSebuahtSebuah(x)haldSebuahtSebuahhalθ

Memperbarui

Saya menemukan sebuah blog oleh Andrej Karpathy yang menunjukkan

Hasil ini tidak khusus untuk gambar, ConvNets, dan mereka juga bukan "cacat" dalam Pembelajaran Jauh.

masukkan deskripsi gambar di sini
MENJELAJAHI DAN Memanfaatkan CONTOH ADVERSARIAL Deep Neural Networks Mudah Dibodohi: Prediksi Keyakinan Tinggi untuk Gambar yang Tidak Dikenali
masukkan deskripsi gambar di sini

dontloo
sumber
Pertanyaannya tampaknya keluar DNN daripada NN secara umum?
Matthew Gunn
@ MatthewGunn Saya tidak yakin, menurut jawaban seanv507 sepertinya masalah yang lebih umum.
dontloo
@MattewGunn menjelaskan dan memanfaatkan makalah contoh permusuhan - pertunjukan juga berlaku untuk regresi logistik
seanv507

Jawaban:

10

Jenis model yang Anda maksud disebut model 'generatif' sebagai lawan diskriminatif, dan tidak benar-benar meningkatkan data berdimensi tinggi. Bagian dari keberhasilan NN dalam tugas bahasa adalah perpindahan dari model generatif (HMM) melakukan model diskriminatif 'lebih' (misalnya MEMM menggunakan regresi logistik yang memungkinkan data kontekstual untuk digunakan secara efektif https://en.wikipedia.org/ wiki / Hidden_Markov_model # Ekstensi )

Saya berpendapat bahwa alasan mereka dibodohi adalah masalah yang lebih umum. Ini adalah dominasi saat ini dari AI yang digerakkan oleh ML yang dangkal terhadap metode yang lebih canggih. [dalam banyak makalah disebutkan bahwa model ML lainnya juga mudah dibodohi - http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html - Ian Goodfellow]

'model bahasa' yang paling efektif untuk banyak tugas adalah 'kantong kata-kata'. Tidak ada yang akan mengklaim bahwa ini merupakan model bahasa manusia yang bermakna. tidak sulit untuk membayangkan bahwa model semacam ini juga mudah dibodohi.

demikian pula tugas-tugas penglihatan komputer seperti pengenalan objek direvolusi dengan 'kantong kata-kata visual' yang menghancurkan metode yang lebih intensif secara komputasi (yang tidak dapat diterapkan pada kumpulan data besar-besaran).

CNN saya berpendapat 'kantong kata-kata visual' yang lebih baik - seperti yang Anda tunjukkan dalam gambar Anda, kesalahan dilakukan pada fitur level / piksel level rendah; terlepas dari semua hiperbola tidak ada representasi tingkat tinggi di lapisan tersembunyi- (semua orang membuat kesalahan, intinya adalah bahwa seseorang akan membuat 'kesalahan' karena fitur tingkat yang lebih tinggi dan misalnya akan mengenali kartun kucing, yang saya tidak tahu ' t percaya NN akan).

Contoh model visi komputer yang lebih canggih (yang berkinerja lebih buruk daripada NN) adalah misalnya model 'komponen yang dapat dideformasi'.

seanv507
sumber
4

Sejauh yang saya tahu, sebagian besar jaringan saraf tidak menggunakan distribusi probabilitas aa priori atas gambar input. Namun Anda dapat mengartikan pemilihan set pelatihan sebagai distribusi probabilitas. Dalam pandangan itu, gambar-gambar yang dibuat secara artifisial ini tidak mungkin dipilih sebagai gambar dalam set-uji. Salah satu cara untuk mengukur 'probabilitas gabungan' adalah dengan secara acak menghasilkan gambar dan memberi label. Masalahnya adalah bahwa mayoritas luas, VAST tidak memiliki label. Jadi untuk mendapatkan jumlah contoh berlabel yang masuk akal akan memakan waktu terlalu lama.

dimpol
sumber
terima kasih telah menjawab :) Saya tidak yakin apa artinya "Salah satu cara untuk mengukur 'probabilitas gabungan' adalah dengan secara acak menghasilkan gambar dan kemudian melabeli mereka." Anda bermaksud memberi label gambar acak secara manual (sebagai kategori lain )?
dontloo
1
Maksud saya menghasilkan gambar dengan memilih nilai RGB dari setiap piksel secara acak. Itu berarti bahwa gambar panda kanan atas di pos Anda dan gambar panda "owa" kiri atas akan memiliki probabilitas yang sama untuk dihasilkan. Masalahnya adalah setiap piksel memiliki 2 ^ 24 warna yang mungkin dan sebagian besar gambar yang dihasilkan adalah omong kosong. Pada saat Anda menghasilkan bahkan satu gambar tunggal yang dapat diberi label "panda", alam semesta akan hilang.
dimpol
oh begitu, sepertinya banyak pekerjaan yang harus dilakukan, terima kasih.
dontloo