Saya mengerti bahwa diberikan satu set pengamatan independen yang Maximum Likelihood Estimator (atau, sama, MAP dengan datar / seragam sebelumnya) yang mengidentifikasi parameter yang menghasilkan distribusi Model p_ {Model} \ kiri (\, \ cdot \,; \ mathbf {θ} \ kanan) yang paling cocok dengan pengamatan itu adalah
atau, lebih nyaman
dan lihat peran yang dapat dimainkan dalam mendefinisikan fungsi kerugian untuk jaringan saraf dalam multi-kelas, di mana sesuai dengan parameter jaringan yang dapat dilatih (misalnya, dan pengamatan adalah pasangan dari aktivasi input dan label kelas yang benar sesuai , = { }, dengan mengambil
Apa yang saya tidak mengerti adalah bagaimana ini berhubungan dengan apa yang disebut "cross entropy" dari output (vectorized) yang benar, , dan aktivasi output yang sesuai dari jaringan, yang digunakan dalam praktek ketika mengukur kesalahan / kerugian selama pelatihan . Ada beberapa masalah terkait:
Aktivasi "sebagai probabilitas"
Salah satu langkah dalam membangun hubungan antara MLE dan cross entropy adalah menggunakan aktivasi output "seolah-olah" mereka adalah probabilitas. Tapi itu tidak jelas bagi saya bahwa mereka, atau setidaknya bahwa mereka berada.
Dalam menghitung kesalahan pelatihan - khususnya, menyebutnya "kehilangan lintas entropi" - diasumsikan bahwa (setelah menormalkan aktivasi menjadi 1)
atau
supaya kita bisa menulis
dan dengan demikian
Tetapi sementara ini tentu saja membuat probabilitas (sejauh ada sesuatu), ia tidak menempatkan batasan pada aktivasi lainnya.
Bisakah benar-benar dikatakan PMF dalam kasus itu? Apakah ada sesuatu yang membuat tidak pada kenyataannya probabilitas (dan hanya "seperti" mereka )?
Batasan kategorisasi
Langkah penting di atas dalam menyamakan MLE dengan lintas-entropi bergantung sepenuhnya pada struktur "satu-panas" dari yang mencirikan masalah pembelajaran multi-kelas (label tunggal). Struktur lain apa pun untuk akan membuat tidak mungkin untuk mendapatkan dari ke .
Apakah persamaan MLE dan minimalisasi lintas-entropi terbatas pada kasus-kasus di mana adalah "satu-panas"?
Peluang pelatihan dan prediksi yang berbeda
Selama prediksi, hampir selalu demikian
yang menghasilkan probabilitas prediksi yang benar yang berbeda dari probabilitas yang dipelajari selama pelatihan kecuali jika itu dapat diandalkan
Apakah ini dapat diandalkan? Apakah itu kemungkinan kira-kira setidaknya benar? Atau adakah argumen lain yang membenarkan persamaan ini dari nilai aktivasi yang dipelajari pada posisi label dengan probabilitas bahwa nilai maksimum dari aktivasi yang dipelajari terjadi di sana?
Teori entropi dan informasi
Bahkan dengan asumsi bahwa masalah di atas ditangani dan aktivasi adalah PMF yang valid (atau dapat diperlakukan secara bermakna seperti itu), sehingga peran yang dimainkan oleh lintas entropi dalam menghitung tidak bermasalah, tidak jelas untuk saya mengapa sangat membantu atau bermakna untuk berbicara tentang entropi dari , karena entropi Shanon berlaku untuk spesifik jenis pengkodean , yang bukan yang digunakan dalam pelatihan jaringan.
Apa peran yang dimainkan oleh entropi teoritik informasi dalam menginterpretasikan fungsi biaya, sebagai lawan dari sekadar menyediakan alat (dalam bentuk entropi silang) untuk menghitung satu (yang sesuai dengan MLE)?
softmax_cross_entropy_with_logits
: mereka menghitung dan karenanya yang mendefinisikan jaringan "yang dirancang untuk" menghasilkan probabilitas (setidaknya di lokasi label). Tidak?Saya akan menjawab dari perspektif yang sedikit lebih umum, mengenai sifat bagaimana, kapan, dan mengapa kita dapat menganggap keluaran NN sebagai distribusi probabilitas.
Dalam arti bahwa softmax memaksakan output ke jumlah ke 1 dan juga menjadi non-negatif, output dari jaringan adalah distribusi probabilitas diskrit atas kelas-kelas, atau setidaknya dapat diartikan demikian. Oleh karena itu sangat masuk akal untuk berbicara tentang lintas-entropi dan kemungkinan maksimum.
Namun, apa yang saya pikir Anda lihat (dan itu benar), adalah bahwa "probabilitas" keluaran mungkin tidak ada hubungannya dengan probabilitas sebenarnya dari kebenaran . Ini adalah masalah terkenal di ML, yang disebut kalibrasi . Misalnya, jika penggolong Anda anjing dan kucing mengatakan , maka Anda akan berharap bahwa jika Anda mengambil satu set contoh semuanya memiliki , maka kira-kira 30% dari input akan salah klasifikasi (karena hanya 70% percaya diri).fθ D C fθ(xi,C)=P(xi=C|θ)=0.7 S={xj} P(xj=C|θ)=0.7
Namun, ternyata metode pelatihan modern tidak memaksakan ini sama sekali! Lihat Guo et al, Pada Kalibrasi Jaringan Saraf Modern untuk melihat beberapa diskusi tentang ini.
Dengan kata lain, "probabilitas" dari output dari softmax mungkin tidak ada hubungannya dengan kepercayaan model yang sebenarnya. Dan ini tidak mengherankan: kami hanya ingin memaksimalkan akurasi kami, dan setiap contoh input memiliki kemungkinan 1 menjadi kelas targetnya. Ada sedikit insentif model untuk mendapatkan ini dengan benar. Jika tidak perlu memperkirakan ketidakpastian maka mengapa harus demikian? Cross-entropy tidak memperbaiki masalah ini; memang, Anda menyuruhnya pergi ke fungsi delta setiap kali!
Banyak pekerjaan terbaru pada jaringan saraf Bayesian berusaha untuk memperbaiki masalah ini. Model semacam itu menggunakan distribusi parameter yang diberikan data , yang dapat diintegrasikan untuk mendapatkan distribusi probabilitas aktual . Ini membantu menjamin pengukuran ketidakpastian yang bermanfaat dan kalibrasi yang lebih baik. Namun, ini lebih bermasalah secara komputasi.P(θ|X)=P(X|θ)P(θ)/P(X) P(yi|xi,X)=∫P(yi|θ,xi)P(θ|X)dθ
Semoga saya tidak salah mengerti pertanyaan Anda!
sumber
Jaringan saraf umpan-maju memperkirakan probabilitas kelas sebenarnya ketika dilatih dengan benar.
Pada 1991, Richard & Lippmann membuktikan bahwa feed-forward neural networks mendekati probabilitas kelas posterior, ketika dilatih dengan pola target indikator kelas {0,1} [ Richard MD, & Lippmann RP (1991). Pengklasifikasi jaringan syaraf memperkirakan probabilitas bayesian a posteriori. Komputasi Saraf, 3, 461–483 .]. Dalam garis pembuktian mereka, mereka menggunakan jaringan neural feed-forward layer tersembunyi.
Dalam anotasi matematis Duda & Hart [ Duda RO & Hart PE (1973), Klasifikasi Pola dan Analisis Adegan, Wiley ], mendefinisikan distribusi fitur yang disediakan sebagai vektor input ke jaringan saraf umpan maju sebagai , di mana misalnya vektor data sama dengan , untuk tugas klasifikasi dengan 4 fitur-variabel. Indeks menunjukkan kemungkinan kelas, .P(x∣ωi) x=(0.2,10.2,0,2) i n i∈{1,…,n}
Pengklasifikasi jaringan saraf umpan maju mempelajari probabilitas posterior, , ketika dilatih oleh gradient descent. Pola keluaran yang diinginkan perlu misalnya menjadi , untuk masalah klasifikasi dua kelas. Jaringan saraf umpan-maju memiliki satu simpul keluaran per kelas. Vektor menunjukkan bahwa vektor fitur yang diamati milik kelas 2.P^(ωi∣x) o=(0,1) (0,1)
sumber
Kemungkinan log tidak secara langsung terkait dengan entropi dalam konteks pertanyaan Anda. Kesamaannya dangkal: keduanya memiliki jumlah logaritma jumlah probabilitas-seperti.
Logaritma dalam log-likelihood (MLE) dilakukan murni untuk alasan perhitungan numerik. Produk probabilitas bisa berjumlah sangat kecil, terutama jika sampel Anda besar. Kemudian kisaran kemungkinan berubah dari 1 menjadi nilai produk yang sangat kecil. Saat Anda mendapatkan log, produk menjadi jumlah, dan fungsi log memampatkan rentang nilai ke domain yang lebih kecil dan lebih mudah dikelola. Logaritma adalah fungsi monoton, sehingga maksimum (min) log-kemungkinan akan menghasilkan jawaban yang sama dari kemungkinan itu sendiri. Oleh karena itu, kehadiran log dalam ekspresi MLE tidak penting dalam arti matematis, dan hanya masalah kenyamanan.
Kehadiran fungsi logaritma dalam entropi lebih substansial, dan berakar pada mekanika statistik, cabang fisika. Ini terkait dengan distribusi Boltzmann , yang digunakan dalam teori gas. Anda bisa mendapatkan tekanan udara sebagai fungsi dari ketinggian yang menggunakannya, misalnya.
sumber