Bayesian jawaban nonparametrik untuk pembelajaran yang mendalam?

8

Seperti yang saya pahami, jaringan saraf yang dalam melakukan "representasi pembelajaran" dengan meletakkan fitur bersama. Ini memungkinkan mempelajari struktur dimensi yang sangat tinggi dalam fitur-fiturnya. Tentu saja, ini adalah model parametrik dengan jumlah parameter yang tetap, sehingga memiliki keterbatasan yang biasa sehingga kompleksitas model mungkin sulit disetel.

Apakah ada cara Bayesian (nonparametrik) untuk mempelajari struktur seperti itu di ruang fitur, yang memungkinkan kompleksitas model untuk beradaptasi dengan data? Model terkait meliputi:

  • Dirichlet memproses model campuran, yang memungkinkan seseorang untuk mempartisi ruang menjadi kelompok tanpa batas, memungkinkan data untuk memilih angka yang terbatas
  • model faktorial seperti Indian Buffet Process (IBP), yang menemukan potensi fitur laten (alias topik) yang tak terbatas yang menjelaskan data.

Namun sepertinya IBP tidak belajar representasi mendalam. Ada juga masalah bahwa metode ini dirancang untuk pembelajaran tanpa pengawasan dan biasanya kami menggunakan pembelajaran mendalam untuk tugas-tugas yang diawasi. Apakah ada varian IBP atau metode lain yang memungkinkan representasi tumbuh sesuai permintaan data?

hijau
sumber
Saya tidak benar-benar tahu apakah jaringan saraf yang dalam dihitung sebagai model parametrik.
Skander H.

Jawaban:

6

Seperti yang dicatat oleh jawaban lain, alternatif Bayesian non-parametrik yang umum untuk jaringan saraf adalah Proses Gaussian . (Lihat juga di sini ).

Namun, koneksi berjalan jauh lebih dalam dari itu. Pertimbangkan kelas model yang dikenal sebagai Bayesian Neural Networks (BNN). Model seperti seperti jaringan saraf yang mendalam biasa kecuali bahwa setiap berat / parameter dalam jaringan memiliki distribusi probabilitas yang menggambarkan nilainya . Jaringan saraf normal kemudian agak seperti kasus khusus BNN, kecuali bahwa distribusi probabilitas pada setiap berat adalah Dirac Delta.

Fakta menarik adalah bahwa jaringan saraf Bayesian yang sangat luas menjadi Proses Gaussian dalam beberapa kondisi yang masuk akal.

Tesis Neal, Bayesian Learning for Neural Networks (1995) menunjukkan ini dalam kasus jaringan single-layer dengan IID sebelumnya. Pekerjaan yang lebih baru (lihat Lee et al, Deep Neural Networks sebagai Gaussian Processes , 2018 ) memperluas ini ke jaringan yang lebih dalam.

Jadi mungkin Anda dapat mempertimbangkan BNN besar sebagai perkiraan model proses Gaussian non-parametrik.

Adapun pertanyaan Anda secara lebih umum, orang sering hanya perlu pemetaan dalam pembelajaran yang diawasi, yang tampaknya Bayesian non-parametrik tidak umum untuk (setidaknya untuk saat ini), sebagian besar untuk alasan komputasi (yang sama berlaku untuk BNN, bahkan dengan kemajuan terbaru) dalam inferensi variasional). Namun, dalam pembelajaran tanpa pengawasan, mereka lebih sering muncul. Contohnya:

pengguna3658307
sumber