Mengapa classifier naif bayes optimal untuk kerugian 0-1?

Klasifikasi Naive Bayes adalah pengklasifikasi yang menetapkan item ke kelas berdasarkan pada memaksimalkan posterior untuk keanggotaan kelas, dan mengasumsikan bahwa fitur dari item tersebut independen. $x$ $C$ $P(C|x)$

Kehilangan 0-1 adalah kerugian yang menyebabkan hilangnya klasifikasi "miss", dan hilangnya "0" untuk klasifikasi yang benar.

Saya sering membaca (1) bahwa "Naive Bayes" Classifier, optimal untuk kerugian 0-1. Mengapa ini benar?

(1) Satu sumber keteladanan: Bayes classifier dan Bayes error

machine-learning bayesian optimization naive-bayes loss-functions
sumber

Bisakah Anda memberikan referensi untuk pernyataan Anda, " Saya sering membaca bahwa" Naive Bayes ", optimal untuk kerugian 0-1 "? Seperti, di mana mungkin Anda pernah membaca pernyataan seperti ini di masa lalu

Jon

diedit, menambahkan sumber

Sebenarnya ini cukup sederhana: Bayes classifier memilih kelas yang memiliki kemungkinan kejadian posteriori terbesar (disebut maksimum estimasi posteriori ). The 0-1 kerugian menghukum fungsi kesalahan klasifikasi, yaitu akan menetapkan kerugian terkecil untuk solusi yang memiliki jumlah terbesar dari klasifikasi yang benar. Jadi dalam kedua kasus kita berbicara tentang mode estimasi . Ingat bahwa mode adalah nilai yang paling umum dalam dataset, atau nilai yang paling mungkin , sehingga memaksimalkan probabilitas posterior dan meminimalkan kehilangan 0-1 mengarah pada estimasi mode.

Jika Anda membutuhkan bukti formal, yang diberikan dalam makalah Pengantar Bayesian Decision Theory oleh Angela J. Yu:

Fungsi kerugian biner 0-1 memiliki bentuk berikut:

$l_{x} (\hat{s}, s^{*}) = 1 - δ_{\hat{s} s^{*}} = {\begin{cases} 1 & if \hat{s} \neq s^{*} \\ 0 & otherwise \end{cases}$ $l_\boldsymbol{x}(\hat s, s^*) = 1 - \delta_{\hat ss^*} = \begin{cases} 1 & \text{if} \quad \hat s \ne s^* \\ 0 & \text{otherwise} \end{cases}$
di mana adalah fungsi Kronecker Delta. (...) kerugian yang diharapkan adalah: $\delta$

$\begin{aligned} L_{x} (\hat{s}) & = \sum_{s^{*}} l_{x} (\hat{s}, s^{*}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} (1 - δ_{\hat{s} s^{*}}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} P (s = s^{*} ∣ x) d s^{*} - \sum_{s^{*}} δ_{\hat{s} s^{*}} P (s = s^{*} ∣ x) \\ = 1 - P (s = s^{*} ∣ x) \end{aligned}$ $\begin{align} \mathcal{L}_\boldsymbol{x}(\hat s) &= \sum_{s^*} l_\boldsymbol{x}(\hat s, s^*) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} (1 - \delta_{\hat ss^*}) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} P(s = s^* \mid \boldsymbol{x}) ds^* - \sum_{s^*} \delta_{\hat ss^*} P(s = s^* \mid \boldsymbol{x}) \\ &= 1 - P(s = s^* \mid \boldsymbol{x}) \end{align}$

Ini berlaku untuk estimasi posteriori maksimum secara umum. Jadi jika Anda mengetahui distribusi posterior, maka dengan asumsi 0-1 kerugian, aturan klasifikasi yang paling optimal adalah dengan mengambil mode distribusi posterior, kami menyebutnya classifier Bayes optimal . Dalam kehidupan nyata, kita biasanya tidak tahu distribusi posterior, tetapi kita memperkirakannya. Naive Bayes classifier mendekati penggolong optimal dengan melihat distribusi empiris dan dengan mengasumsikan independensi prediktor. Jadi pengklasifikasi naif Bayes itu sendiri tidak optimal, tetapi mendekati solusi optimal. Dalam pertanyaan Anda, Anda tampaknya membingungkan kedua hal itu.

Tim
sumber

Saya rasa saya mengerti: Jadi bukti formal akan menjadi sesuatu di sepanjang garis Rugi (action_1) = 1-P (action_2 | data) <--- kami ingin meminimalkan ini. Meminimalkan ini sekali lagi sama dengan memaksimalkan sebelum kelas yang benar (yaitu memaksimalkan P (action_2 | data). Namun yang membingungkan saya, adalah mengapa tidak setiap classifier akan optimal dalam hal ini - karena ini tampaknya merupakan persyaratan paling mendasar untuk penugasan sampel data ke kelas. Jadi, jika kita selalu memilih untuk menetapkan sampel data ke kelas dengan posterior yang lebih tinggi, apakah kita tidak secara otomatis memenuhi optimalitas ini?

@ TestGuest periksa edit saya untuk bukti formal.

Tim

Itu formalisme paling rumit yang pernah saya lihat untuk bukti seperti itu :)) terima kasih, saya harap itu membantu orang lain juga.

Mengapa classifier naif bayes optimal untuk kerugian 0-1?

Jawaban: