Jika dua kelas dan memiliki distribusi normal dengan parameter yang diketahui ( , sebagai sarana dan , adalah kovarian mereka) bagaimana kita dapat menghitung kesalahan dari classifier Bayes untuk mereka secara teori?
Anggap pula variabel-variabel berada dalam ruang dimensi-N.
Catatan: Salinan pertanyaan ini juga tersedia di https://math.stackexchange.com/q/11891/4051 yang masih belum terjawab. Jika salah satu dari pertanyaan ini dijawab, yang lain akan dihapus.
Jawaban:
Tidak ada formulir tertutup, tetapi Anda bisa melakukannya secara numerik.
Sebagai contoh konkret, pertimbangkan dua Gaussians dengan parameter berikut
Batas penggolong optimal Bayes akan sesuai dengan titik di mana dua kerapatan sama
Karena classifier Anda akan memilih kelas yang paling mungkin di setiap titik, Anda perlu mengintegrasikan lebih dari kepadatan yang bukan yang tertinggi untuk setiap titik. Untuk masalah di atas, itu sesuai dengan volume wilayah berikut
Anda dapat mengintegrasikan dua bagian secara terpisah menggunakan beberapa paket integrasi numerik. Untuk masalah di atas saya
0.253579
menggunakan kode Mathematica berikutsumber
Tampaknya Anda dapat melakukan ini dengan dua cara, tergantung pada asumsi model apa yang Anda buat dengan senang hati.
Pendekatan Generatif
Dengan asumsi model generatif untuk data, Anda juga perlu mengetahui probabilitas sebelumnya dari setiap kelas untuk pernyataan analitik kesalahan klasifikasi. Carilah Analisis Diskriminan untuk mendapatkan batas keputusan optimal dalam bentuk tertutup, lalu hitung area di sisi yang salah untuk setiap kelas untuk mendapatkan tingkat kesalahan.
Saya menganggap ini adalah pendekatan yang dimaksudkan oleh doa Anda yang classifier Bayes, yang didefinisikan hanya ketika segala sesuatu tentang proses menghasilkan data yang ditentukan. Karena ini jarang mungkin selalu layak untuk dipertimbangkan
Pendekatan Diskriminasi
Jika Anda tidak ingin atau tidak dapat menentukan probabilitas kelas sebelumnya, Anda dapat mengambil keuntungan dari kenyataan bahwa fungsi diskriminan dapat dalam banyak keadaan (kira-kira, distribusi bersyarat kelas keluarga eksponensial) dimodelkan langsung oleh model regresi logistik. Perhitungan tingkat kesalahan kemudian menjadi satu untuk model regresi logistik yang relevan.
Untuk perbandingan pendekatan dan diskusi tentang tingkat kesalahan, Jordan 1995 dan Jordan 2001 dan referensi mungkin menarik.
sumber
Di sini Anda mungkin menemukan beberapa petunjuk untuk pertanyaan Anda, mungkin tidak ada tanggapan penuh tetapi tentu saja bagian yang sangat berharga darinya. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2766788/
sumber
Dalam klasifikasi dengan kelas seimbang, tingkat kesalahan Bayes (BER) persis sama dengan( 1 - TV) / 2 dimana TV adalah total variasi jarak antara distribusi bersyarat + ve dan -ve dari fitur. Lihat Teorema 1 dari makalah ini .
Untuk menyelesaikannya, tidak sulit untuk menemukan referensi yang bagus menghitung TV antara distribusi Gaussian multivariat.
sumber