Diberikan hanya pengamatan sinyal biner yang terganggu oleh noise Gaussian dengan informasi sebelumnya yang tidak diketahui, bagaimana saya bisa memperkirakan ambang keputusan optimal?
(Tidak, ini bukan pertanyaan pekerjaan rumah)
Secara khusus, saya berpikir tentang model berikut: adalah dua negara Variabel acak :
dengan parameter yang tidak diketahui :.
Ambang kemungkinan Log Logikel Posteriori Maksimum dapat dihitung dari parameter tersebut jika saya mengetahuinya. Saya awalnya berpikir tentang cara memperkirakan parameter terlebih dahulu untuk mencapai ambang batas. Tapi saya pikir mungkin lebih kuat untuk memperkirakan secara langsung.
Pikiran: Normalisasi pengamatan (mengurangi mean sampel dan membaginya dengan standar deviasi) mengurangi ruang parameter menjadi 2 dimensi: dan .
sumber
Jawaban:
Intuisi saya adalah bahwa akan sulit untuk mendapatkan ambang keputusan yang tepat yang Anda harapkan:
Dari statistik global yang Anda pertimbangkan (mean sampel:πμ0+ ( 1 - π)μ1 ; standar deviasi: ekspresi yang lebih kompleks tapi saya ragu itu akan melibatkan log).
Saya akan mendekati masalah dengan cara ini:
Kalau asumsi ituσ kecil bisa dibuat
Saya menyebutkan itu, karena perlu diingat bahwa ambang keputusan dipengaruhi olehπ hanya jika σ cukup tinggi untuk memungkinkan kedua kelas tumpang tindih. Jikaμ Jauh lebih dari beberapa σ , probabilitas kelas sebelumnya tidak ada artinya dalam proses pengambilan keputusan!
Jika tidak ada asumsi tentangσ dapat di buat
sumber
Untuk meringkas Anda memiliki dua distribusi dengan parameter yang tidak diketahui dan pengukuran yang mungkin berasal dari proses stokastik. Ini biasanya disebut sebagai masalah asosiasi data dan sangat umum, dan dipelajari secara luas, dalam komunitas pelacakan. Anda mungkin mempertimbangkan untuk menggunakan algoritma Probability Data Association Filter (PDAF) atau Multi-Hypothesis Tracking (MHT). Ini harus memberi Anda perkiraan rata-rata dan varians untuk setiap distribusi.
Atau, karena suara Anda berwarna putih dan Gaussian, ML, MAP dan MMSE semuanya setara dan dapat ditemukan dengan meminimalkan kesalahan kuadrat rata-rata (fungsi biaya), seperti yang secara efektif dijelaskan oleh respons sebelumnya. Saya akan menggunakan pendekatan pemrograman dinamis untuk menemukan fungsi biaya minimum. Ini harus kurang kompleks (komputasional) dari metode EM / clustering yang dijelaskan sebelumnya. Satu komentar lagi: PDAF bersifat rekursif. Mengingat model sinyal sederhana itu harus bekerja sangat efektif dan apa yang saya harapkan adalah sebagian kecil dari kompleksitas komputasi dari algoritma EM. Semoga beruntung, -B
sumber
Ada algoritma dari pertengahan 1980-an oleh Kittler dan Illingworth yang disebut "Minimum Error Thresholding" yang memecahkan masalah ini untuk distribusi Gaussian. Baru-baru ini Mike Titterington (Universitas Glasgow) dan JH Xue (sekarang di UCL) telah menempatkan ini dalam kerangka kerja statistik yang lebih formal, lihat publikasi jurnal bersama mereka.
sumber