Dalam MNIST For ML Beginners mereka mendefinisikan cross-entropy sebagai
adalah nilai probabilitas yang diprediksi untuk kelas dan adalah probabilitas sebenarnya untuk kelas itu.
pertanyaan 1
Bukankah ini masalah (dalam ) bisa 0? Ini berarti bahwa kita memiliki penggolong yang sangat buruk, tentu saja. Tetapi pikirkan kesalahan dalam set data kami, misalnya label "jelas" berlabel . Apakah itu hanya akan crash? Apakah model yang kami pilih (aktivasi softmax di akhir) pada dasarnya tidak pernah memberikan probabilitas 0 untuk kelas yang benar?1
3
Pertanyaan 2
Saya telah belajar bahwa lintas-entropi didefinisikan sebagai
Apa yang benar Apakah Anda memiliki referensi buku teks untuk kedua versi? Bagaimana fungsi-fungsi itu berbeda dalam sifat-sifatnya (sebagai fungsi kesalahan untuk jaringan saraf)?
sumber
Jawaban:
Salah satu cara untuk menginterpretasikan lintas-entropi adalah melihatnya sebagai (minus) log-kemungkinan untuk data , di bawah model .y′saya ysaya
Yaitu, anggaplah Anda memiliki beberapa model tetap (alias "hipotesis"), yang memprediksi untuk kelas probabilitas kemunculan hipotetis mereka . Misalkan Anda sekarang mengamati (dalam kenyataan) instance dari kelas , instance dari kelas , instance dari kelas , dll. Menurut model Anda, kemungkinan kejadian ini adalah: Mengambil logaritma dan mengubah tandanya:n { 1 , 2 , ... , n } 1 k 2 2 k n n P [ d a t a | m o d e l ] : = y k 1 1 y k 2 2 … y k n n . - log P [ d a t a | m o d e l ]y1, y2, ... , yn k1 1 k2 2 kn n P[ da t a | m o de l ] : = yk11yk22…yknn. −logP[data|model]=−k1logy1−k2logy2−⋯−knlogyn=−∑ikilogyi N = k 1 + k 2 + ⋯ + k n y ′ i = k i / N - 1
Jika Anda sekarang membagi jumlah sebelah kanan dengan jumlah pengamatan , dan menunjukkan probabilitas empiris sebagai , Anda akan mendapatkan entropi silang:
N=k1+k2+⋯+kn y′i=ki/N - 1NcatatanP[ da t a | m o de l ] = - 1N∑sayaksayacatatanysaya= - ∑sayay′sayacatatanysaya= : H( y′, y)
Lebih lanjut, kemungkinan log dari dataset yang diberikan model dapat diartikan sebagai ukuran "panjang pengkodean" - jumlah bit yang Anda harapkan untuk mengkodekan informasi ini jika skema pengkodean Anda akan didasarkan pada hipotesis Anda.
Ini mengikuti dari pengamatan bahwa peristiwa independen dengan probabilitas membutuhkan setidaknya bit untuk menyandikannya (dengan asumsi pengkodean yang efisien), dan akibatnya ekspresi secara harfiah adalah panjang yang diharapkan dari pengkodean , di mana panjang pengkodean untuk peristiwa dihitung menggunakan distribusi "dihipotesiskan", sementara harapan diambil alih yang sebenarnya.ysaya - log2ysaya - ∑sayay′sayacatatan2ysaya,
Akhirnya, alih-alih mengatakan "ukuran panjang pengkodean yang diharapkan", saya benar-benar suka menggunakan istilah informal "ukuran kejutan". Jika Anda membutuhkan banyak bit untuk menyandikan acara yang diharapkan dari suatu distribusi, distribusinya "benar-benar mengejutkan" bagi Anda.
Dengan intuisi tersebut, jawaban atas pertanyaan Anda dapat dilihat sebagai berikut:
Pertanyaan 1 . Iya. Ini adalah masalah setiap kali sesuai bukan nol pada saat yang samay′saya . Ini sesuai dengan situasi di mana model Anda percaya bahwa beberapa kelas memiliki probabilitas nol terjadinya, namun kelas muncul dalam kenyataan. Akibatnya, "kejutan" model Anda sangat luar biasa: model Anda tidak memperhitungkan peristiwa itu dan sekarang membutuhkan banyak bit untuk mengkodekannya. Itulah sebabnya Anda mendapatkan ketidakterbatasan sebagai entropi silang Anda.
Untuk menghindari masalah ini, Anda perlu memastikan bahwa model Anda tidak membuat asumsi terburu-buru tentang sesuatu yang mustahil sementara itu bisa terjadi. Pada kenyataannya, orang cenderung menggunakan fungsi sigmoid atau "softmax" sebagai model hipotesis mereka, yang cukup konservatif untuk meninggalkan setidaknya beberapa peluang untuk setiap opsi.
Jika Anda menggunakan beberapa model hipotesis lain, terserah Anda untuk mengatur (alias "halus") sehingga tidak membuat hipotesis nol di mana seharusnya tidak.
Pertanyaan 2 . Dalam rumus ini, orang biasanya mengasumsikan menjadi atau , sedangkan adalah hipotesis probabilitas model untuk input yang sesuai. Jika Anda melihat lebih dekat, Anda akan melihat bahwa itu hanyalah untuk data biner, yang setara dengan persamaan kedua dalam jawaban ini.y′saya 0 1 ysaya - logP[ da t a | m o de l ]
Oleh karena itu, sebenarnya, meskipun masih log-kemungkinan, ini tidak secara sintaksis setara dengan lintas-entropi. Apa yang dimaksud beberapa orang ketika merujuk pada ekspresi seperti cross-entropy adalah bahwa, pada kenyataannya, jumlah lebih dari binary cross-entropies untuk masing-masing poin dalam dataset: mana dan harus ditafsirkan sebagai distribusi biner yang sesuai dan .∑sayaH( y′saya, ysaya) , y′saya ysaya ( y′saya,1−y′i) (yi,1−yi)
sumber
Rumus logloss pertama yang Anda gunakan adalah untuk hilangnya log multi-kelas, di mana subscript menyebutkan kelas-kelas yang berbeda dalam sebuah contoh. Rumus ini mengasumsikan bahwa satu dalam setiap contoh adalah 1, dan sisanya adalah 0.saya y′saya
Itu berarti rumus hanya menangkap kesalahan pada kelas target. Ini membuang segala kesalahan yang Anda anggap "false positive" dan tidak peduli bagaimana probabilitas yang diprediksi didistribusikan selain probabilitas yang diprediksi dari kelas sebenarnya.
Asumsi lain adalah bahwa untuk prediksi masing-masing contoh. Lapisan softmax melakukan ini secara otomatis - jika Anda menggunakan sesuatu yang berbeda, Anda perlu mengukur output untuk memenuhi kendala itu.∑sayaysaya= 1
pertanyaan 1
Ya itu bisa menjadi masalah, tetapi biasanya bukan yang praktis. Lapisan softmax yang diinisialisasi secara acak sangat tidak mungkin untuk menghasilkan yang tepatl o g( ysaya) y′saya= 0
0
di kelas mana pun. Tapi itu mungkin, sangat layak untuk itu. Pertama, jangan mengevaluasi untuk setiap , karena kelas negatif selalu berkontribusi 0 pada kesalahan. Kedua, dalam kode praktis Anda dapat membatasi nilainya seperti untuk stabilitas numerik - dalam banyak kasus tidak diperlukan, tetapi ini adalah pemrograman defensif yang masuk akal.log( max( y_predict, 1e-15 ) )
Pertanyaan 2
Formulasi ini sering digunakan untuk jaringan dengan satu output yang memprediksi dua kelas (biasanya keanggotaan kelas positif untuk 1 dan negatif untuk 0 output). Dalam hal ini mungkin hanya memiliki satu nilai - Anda dapat kehilangan jumlah lebih dari .i i
Jika Anda memodifikasi jaringan seperti itu untuk memiliki dua output yang berlawanan dan menggunakan softmax plus definisi logloss pertama, maka Anda dapat melihat bahwa sebenarnya itu adalah pengukuran kesalahan yang sama tetapi melipat metrik kesalahan untuk dua kelas menjadi satu output tunggal.
Jika ada lebih dari satu kelas untuk memprediksi keanggotaan, dan kelas-kelas tersebut tidak eksklusif yaitu contohnya bisa salah satu atau semua kelas pada saat yang sama, maka Anda perlu menggunakan formulasi kedua ini. Untuk pengenalan digit yang tidak demikian (digit tertulis seharusnya hanya memiliki satu kelas "benar")
sumber
Mengingat , Anda ingin mengoptimalkan metode pembelajaran mesin Anda untuk mendapatkan sedekat mungkin dengan . y p r e d i c t y t r u eyt r u e yp r e di c t yt r u e
Pertanyaan pertama:
Jawaban di atas telah menjelaskan latar belakang rumus pertama Anda, entropi silang yang didefinisikan dalam teori informasi.
Dari pendapat selain teori informasi:
Anda dapat memeriksa diri Anda sendiri bahwa formula pertama tidak memiliki hukuman pada false-positiveness (kebenaran itu salah tetapi model Anda memperkirakan bahwa itu benar), sedangkan yang kedua memiliki penalti pada false-positive. Karenanya, pilihan rumus pertama atau kedua, akan memengaruhi metrik Anda (alias jumlah statistik apa yang ingin Anda gunakan untuk mengevaluasi model Anda).
Dalam kata awam:
Jika Anda ingin menerima hampir semua orang baik untuk menjadi teman Anda tetapi bersedia menerima beberapa orang jahat menjadi teman Anda, maka gunakan formula pertama untuk kriteria.
Jika Anda ingin menghukum diri Anda menerima beberapa orang jahat untuk menjadi teman Anda, tetapi pada saat yang sama orang yang menerima orang baik Anda mungkin lebih rendah dari kondisi pertama, maka gunakan formula kedua.
Sementara, saya kira sebagian besar dari kita adalah kritis dan ingin memilih yang kedua (sehingga banyak paket ML menganggap apa itu cross entropy).
Pertanyaan kedua:
Entropi silang per sampel per kelas:
Entropi silang untuk seluruh kumpulan data seluruh kelas:
Jadi, ketika hanya ada dua kelas (K = 2), Anda akan memiliki rumus kedua.
sumber
Masalah-masalah tersebut ditangani oleh penggunaan tutorial softmax.
Untuk 1) Anda benar bahwa softmax menjamin output yang tidak nol karena itu eksponensial inputnya. Untuk aktivasi yang tidak memberikan jaminan ini (seperti relu), mudah untuk menambahkan istilah positif yang sangat kecil untuk setiap output untuk menghindari masalah itu.
Adapun 2), mereka tidak sama jelas, tetapi saya formulasi softmax yang mereka berikan menangani masalah ini. Jika Anda tidak menggunakan softmax, ini akan menyebabkan Anda mempelajari istilah bias besar yang menebak 1 untuk setiap kelas untuk input apa pun. Tetapi karena mereka menormalkan softmax di semua kelas, satu-satunya cara untuk memaksimalkan output dari kelas yang benar adalah untuk itu menjadi relatif besar ke kelas yang salah.
sumber
(a) benar untuk prediksi multi-kelas (sebenarnya merupakan penjumlahan ganda), (b) sama dengan (a) untuk prediksi dua-kelas. Keduanya saling entropi.
Contoh:
Baik (a) dan (b) dihitung sebagai:
Penurunan:
Formula akhir untuk semua poin pelatihan adalah:
yang sama dengan (b).
Cross-entropy (a) atas kelas (satu penjumlahan)
Cross-entropy (a) atas kelas adalah:
Versi ini tidak dapat digunakan untuk tugas klasifikasi. Mari kita gunakan kembali data dari contoh sebelumnya:
sumber