Statistik apa yang digunakan untuk menentukan keberadaan sinyal dalam noise?

12

Ini adalah masalah pendeteksi yang saya yakini:

Saya bingung dengan apa yang tampaknya menjadi masalah sederhana. Pada dasarnya, saya memiliki band yang menarik. Jika energi sinyal ada dalam pita minat ini, maka saya melakukan operasi X pada sinyal saya.

Masalah saya adalah bahwa saya tidak yakin bagaimana cara 'memutuskan' apakah ada sinyal atau tidak. Dalam hal itu, setelah saya melakukan FFT, saya bisa mencari puncak.

Tapi sekarang bagaimana?

  • Apakah statistik yang digunakan biasanya membandingkan puncak ini dengan rata-rata spektrum? Atau statistik lain?
  • Apa ukuran statistik yang saya gunakan untuk hanya menentukan apakah ada sinyal, dan pergi dari sana?
  • Bagaimana cara menetapkan nilai ini? Ambang batas sederhana?

EDIT Berdasarkan umpan balik:

Untuk kasus sederhana ini, saya mengasumsikan nada, dalam gaussian white noise. Apa yang saya coba atasi adalah:

  1. Bagaimana tepatnya seseorang menghasilkan kurva ROC . Apakah seseorang harus pergi dan memberi label semua data terlebih dahulu, dan kemudian mendapatkan tingkat positif-benar dan positif-palsu untuk banyak ambang batas?

  2. Bagaimana penurunan SNR mempengaruhi kurva ROC? Pindahkan ke arah diagonal?

  3. Apa yang dilakukan adaptive thesholding terhadap kurva ROC yang diberikan yang sebaliknya dihasilkan tanpa ambang adaptif?

    3a. Apa sajakah teknik ambang adaptif umum yang dapat saya lihat yang umum?

Spacey
sumber
Apakah Anda ingin algoritma batch (offline), atau algoritma sequential (online)? Apakah Anda memiliki statistik noise dan sinyal (yaitu, dapatkah Anda mengkarakterisasi rasio kemungkinan)? Jika ya, sudahkah Anda mencoba menggunakan SPRT ?
Emre
@Emre Ini bisa offline. Saya tidak benar-benar yakin apa yang Anda maksud dengan statistik sinyal / noise, saya memiliki sensor yang akan mengukur sinyal (nada) di hadapan noise, dan SNR-nya dapat bervariasi ...
Spacey
Maksudnya: apa sifat statistik dari kebisingan dan sinyalnya? Apakah Anda tahu distribusi kebisingan? Bagaimana dengan distribusi sinyal plus noise?
Jason R
@JasonR, begitu. Nah, sinyalnya akan menjadi nada, dan kebisingannya gaussian. Apakah saya melewatkan sesuatu?
Spacey
Mungkin. Gaussian Putih? Intinya adalah bahwa untuk menganalisanya secara teoritis, Anda perlu mengasumsikan beberapa model probabilitas untuk noise dan sinyal plus noise. Berdasarkan jawaban itu, Anda bisa melakukannya.
Jason R

Jawaban:

9

Ini adalah salah satu masalah pemrosesan sinyal tertua, dan bentuk sederhana kemungkinan akan ditemui dalam pengantar teori deteksi. Ada pendekatan teoretis dan praktis untuk menyelesaikan masalah seperti itu, yang mungkin tumpang tindih atau tergantung pada aplikasi spesifik.

Langkah pertama untuk memahami pendekatan terhadap masalah adalah memahami bagaimana Anda akan mengukur kinerja detektor keberadaan sinyal Anda. Ada dua metrik penting dan terkait yang digunakan untuk mengukur secara kuantitatif seberapa baik detektor: probabilitas deteksi dan probabilitas alarm palsu .P f aPd Pfa

P f a P d = 1 P f a = 0Pd ditetapkan sebagai probabilitas bahwa detektor Anda akan menunjukkan keberadaan sinyal yang diinginkan, mengingat bahwa sinyal tersebut benar-benar ada. Sebaliknya, adalah probabilitas bahwa detektor Anda akan menunjukkan keberadaan sinyal yang menarik, mengingat sinyal tersebut tidak ada. Seperti yang Anda harapkan, maka, di dunia yang sempurna, kami akan merancang sistem yang menghasilkan dan dan menyebutnya sehari. Seperti yang mungkin Anda harapkan, itu tidak mudah. Ada tradeoff yang melekat antara kedua metrik; biasanya jika Anda melakukan sesuatu yang meningkatkan satu, Anda akan mengamati beberapa degradasi di yang lain.PfaPd=1Pfa=0

Contoh sederhana: jika Anda mencari keberadaan pulsa terhadap latar belakang kebisingan, Anda dapat memutuskan untuk menetapkan ambang batas di atas tingkat kebisingan "khas" dan memutuskan untuk menunjukkan keberadaan sinyal yang diinginkan jika statistik deteksi Anda pecah di atas ambang batas. Ingin probabilitas alarm palsu yang sangat rendah? Tetapkan ambang batas tinggi. Tetapi kemudian, probabilitas deteksi mungkin menurun secara signifikan jika ambang batas yang dinaikkan berada pada atau di atas level daya sinyal yang diharapkan!

Untuk memvisualisasikan hubungan / , dua kuantitas sering diplot terhadap satu sama lain pada kurva karakteristik operasi penerima . Berikut ini contoh dari Wikipedia :P f aPdPfa

masukkan deskripsi gambar di sini

Detektor yang ideal akan memiliki kurva ROC yang memeluk bagian atas plot; yaitu, itu bisa memberikan deteksi yang dijamin untuk setiap tingkat alarm palsu. Pada kenyataannya, detektor akan memiliki karakteristik yang terlihat seperti yang diplot di atas; meningkatkan probabilitas deteksi juga akan meningkatkan tingkat alarm palsu, dan sebaliknya.

Oleh karena itu, dari sudut pandang teoretis, masalah-masalah ini bermuara pada pemilihan keseimbangan antara kinerja deteksi dan probabilitas alarm palsu. Bagaimana keseimbangan itu dijelaskan secara matematis tergantung pada model statistik Anda untuk proses acak yang diamati oleh detektor. Model biasanya akan memiliki dua negara, atau hipotesis:

H 1 : ada sinyal

H0:no signal is present
H1:signal is present

Biasanya, statistik yang diamati oleh detektor akan memiliki satu dari dua distribusi, sesuai dengan hipotesis mana yang benar. Detektor kemudian menerapkan semacam tes yang digunakan untuk menentukan hipotesis yang sebenarnya dan oleh karena itu apakah ada sinyal atau tidak. Distribusi statistik deteksi adalah fungsi dari model sinyal yang Anda pilih yang sesuai untuk aplikasi Anda.

Model sinyal yang umum adalah deteksi sinyal termodulasi amplitudo-pulsa terhadap latar belakang Gaussian white noise tambahan (AWGN) . Sementara deskripsi itu agak spesifik untuk komunikasi digital, banyak masalah dapat dipetakan dengan itu atau model yang serupa. Khususnya, jika Anda mencari nada bernilai konstan yang dilokalisasi tepat waktu dengan latar belakang AWGN, dan detektor mengamati besarnya sinyal, statistik tersebut akan memiliki distribusi Rayleigh jika tidak ada nada dan distribusi Rician jika ada.

Setelah model statistik dikembangkan, aturan keputusan detektor harus ditentukan. Ini bisa serumit yang Anda inginkan, berdasarkan apa yang masuk akal untuk aplikasi Anda. Idealnya, Anda ingin membuat keputusan yang optimal dalam beberapa hal, berdasarkan pada pengetahuan Anda tentang distribusi statistik deteksi di bawah kedua hipotesis, probabilitas setiap hipotesis menjadi benar, dan biaya relatif salah tentang kedua hipotesis ( yang akan saya bicarakan sedikit lagi). Teori keputusan Bayesian dapat digunakan sebagai kerangka kerja untuk mendekati aspek masalah ini dari perspektif teoritis.

Dalam kasus praktis yang paling sederhana, detektor mungkin memicu deteksi jika statistik deteksi melebihi ambang batas tetap . Dalam kasus yang lebih rumit dan praktis, detektor mungkin memiliki beberapa kriteria untuk menetapkan ambang adaptif dan memicu deteksi pada waktu jika statistik deteksi mematahkan nilai ambang pada saat itu juga. Dalam uraian masalah Anda, Anda menekan satu metode umum untuk menetapkan ambang adaptif: menghitung mean lingkungan untuk memperkirakan "tingkat latar belakang", lalu menetapkan ambang deteksi beberapa jumlah di atas rata-rata itu. Ini dapat bekerja untuk beberapa aplikasi, dan ada banyak cara lain untuk mencapai ambang seperti itu.T ( t ) tTT(t)t

Diberikan model statistik untuk input detektor dan aturan keputusan yang digunakan untuk memetakan statistik itu untuk kesimpulan deteksi, orang kemudian dapat menghitung metrik kinerja teoritis detektor. Pada fase desain, Anda biasanya akan menghitung metrik ini sebagai fungsi dari parameter desain gratis yang Anda miliki (misalnya, ambang atas). Anda kemudian dapat mengevaluasi tradeoff yang melekat: "jika saya mengatur , maka saya mendapatkan , tetapi . Itu terlalu tinggi dari tingkat alarm palsu, jadi saya lebih baik meningkatkan ambang batas."T = 5 P d = 0,9999 P f a = 0,01TT=5Pd=0.9999Pfa=0.01

Di mana Anda akhirnya memutuskan untuk duduk di kurva kinerja terserah Anda, dan merupakan parameter desain yang penting. Titik kinerja yang tepat untuk dipilih tergantung pada biaya relatif dari dua jenis kegagalan yang mungkin terjadi: apakah lebih buruk bagi detektor Anda untuk melewatkan kejadian sinyal ketika itu terjadi atau untuk mendaftarkan kemunculan sinyal ketika belum terjadi? Contoh: balistik-misil-detektor-dengan-kemampuan-serangan-balik akan paling baik dilayani untuk memiliki tingkat alarm yang sangat salah; memulai perang dunia karena deteksi palsu akan sangat disayangkan. Contoh dari situasi sebaliknya adalah penerima komunikasi yang digunakan untuk aplikasi keselamatan; jika Anda ingin memiliki keyakinan maksimal bahwa ia tidak gagal untuk menerima pesan marabahaya,

Jason R
sumber
Terima kasih JasonR, posting yang sangat bagus. Saya masih mencerna posting Anda, namun satu pertanyaan muncul di benak saya. Bagaimana tepatnya kurva ROC ini dihasilkan? Saya mengerti bahwa saya mengukur tingkat true-positive dan false-positive untuk setiap classifier, dan itu menandai satu titik dalam kurva ROC. Jadi apa yang sedang diubah sehingga saya mendapatkan banyak poin sehingga saya bisa menghasilkan kurva untuk satu classifier?
Spacey
1
PdPfa
1

Statistik adalah rasio kemungkinan (LR), dan tes adalah perbandingan LR terhadap ambang batas. Jika Anda mengikuti tradisi menempatkan kemungkinan hipotesis nol penyebut, Anda memutuskan mendukung alternatif hipotesis ( melawan para hipotesis nol ) jika LR cukup tinggi. Semakin tinggi rasionya, semakin besar kepercayaan diri Anda. Ini adalah tes yang akan Anda lakukan jika Anda sudah mengumpulkan data. Jika Anda ingin memutuskan begitu data tiba, Anda dapat menggunakan tes berurutan , seperti SPRT .

Pada tahap ini Anda mungkin mendapat manfaat dari sebuah buku tentang pengujian hipotesis atau teori keputusan (lebih umum).

Emre
sumber