Pertanyaannya mungkin terdengar agak aneh karena saya baru dalam inferensi statistik dan jaringan saraf.
Ketika dalam masalah klasifikasi menggunakan jaringan saraf kita mengatakan bahwa kita ingin mempelajari fungsi yang memetakan ruang input , ke ruang output :
Apakah kita menyesuaikan parameter ( ) untuk memodelkan fungsi non-linear, atau untuk memodelkan fungsi kerapatan probabilitas?
Saya tidak benar-benar tahu bagaimana menulis pertanyaan dengan cara yang lebih baik. Saya telah membaca beberapa kali kedua hal tersebut (probabilitas kepadatan berfungsi, atau berfungsi begitu saja) sehingga kebingungan saya.
Umumnya Neural Networks tidak digunakan untuk memodelkan kepadatan probabilitas lengkap. Fokus mereka adalah hanya memodelkan rata-rata distribusi (atau dalam situasi deterministik hanya fungsi non-linear). Namun demikian sangat mungkin untuk memodelkan kepadatan probabilitas lengkap melalui Neural Networks.
Salah satu cara mudah untuk melakukan ini adalah misalnya untuk kasus Gaussian adalah memancarkan rata-rata dari satu output dan varians dari output lain dari jaringan dan kemudian meminimalkan berfungsi sebagai bagian dari proses pelatihan alih-alih kesalahan kuadrat umum. Ini prosedur kemungkinan maksimum untuk Jaringan Saraf Tiruan.−logN(y|x;μ,σ)
Setelah Anda melatih jaringan ini setiap kali Anda memasukkan nilai sebagai input, itu akan memberi Anda μ dan σ , maka Anda dapat menyambungkan seluruh triplet y , μ , σ ke kepadatan f ( y | x ) ∼ N ( μ , σ ) untuk mendapatkan nilai kerapatan untuk setiap y yang Anda suka. Pada tahap ini Anda dapat memilih nilai y mana yang akan digunakan berdasarkan fungsi kehilangan domain nyata. Satu hal yang perlu diingat adalah bahwa untuk μ aktivasi output harus tidak dibatasi sehingga Anda dapat memancarkan -x μ σ y,μ,σ f(y|x)∼N(μ,σ) y y μ ke + inf sementara σ harus menjadi hanya aktivasi positif.−inf +inf σ
Secara umum, kecuali itu adalah fungsi deterministik yang kita kejar, standar pelatihan kuadrat kerugian yang digunakan dalam jaringan saraf hampir sama dengan prosedur yang saya jelaskan di atas. Di bawah kap distribusi diasumsikan secara implisit tanpa peduli tentang σ dan jika Anda memeriksa dengan hati-hati - l o g N ( y | x ; μ , σ ) memberikan ekspresi kerugian kuadrat ( Kerugian fungsi estimator kemungkinan maksimum Gaussian ). Namun dalam skenario ini, bukannya yGaussian σ −logN(y|x;μ,σ) y nilai sesuai dengan keinginan Anda, Anda terjebak dengan memancarkan setiap kali ketika diberi nilai x baru .μ x
Untuk klasifikasi output akan menjadi distribusi bukannya G a u s s i a n , yang memiliki parameter tunggal untuk memancarkan. Seperti yang ditentukan dalam jawaban lain parameter ini adalah antara 0 dan 1 sehingga aktivasi output harus sesuai. Ini bisa berupa fungsi logistik atau sesuatu yang mencapai tujuan yang sama.Bernoulli Gaussian 0 1
Pendekatan yang lebih canggih adalah Bishop's Mixture Density Networks. Anda dapat membacanya di makalah yang sering direferensikan di sini:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf
sumber
Jawaban saya yang berbeda adalah bahwa dalam aplikasi praktis yang paling mengesankan (misalnya aplikasi yang mendapatkan liputan terbanyak di media) itu bukan fungsi maupun probabilitasnya. Mereka menerapkan pengambilan keputusan stokastik.
Di permukaan sepertinya NN hanya pas dengan fungsinya, antrian referensi perkiraan universal . Dalam beberapa kasus, ketika fungsi aktivasi tertentu dan asumsi tertentu seperti kesalahan Gaussian digunakan atau ketika Anda membaca makalah di jaringan Bayesian, tampaknya NN dapat menghasilkan distribusi probabilitas.
Namun, ini semua hanya omong-omong. Yang ingin dilakukan NN adalah memodelkan pengambilan keputusan. Ketika sebuah mobil dikendarai oleh AI, NN-nya tidak mencoba menghitung probabilitas bahwa ia memiliki objek di depannya, lalu mengingat bahwa ada objek untuk menghitung probabilitas bahwa itu adalah manusia. Baik itu menghitung pemetaan input sensor ke berbagai jenis objek. Tidak, NN seharusnya membuat keputusan berdasarkan semua input untuk mengarahkan atau tetap mengemudi. Itu tidak menghitung probabilitas, ia memberi tahu mobil apa yang harus dilakukan.
sumber