Dalam pencarian saya yang tak berkesudahan untuk mengidentifikasi dengkuran, saya telah menemukan bahwa "kerataan spektral" tampaknya menjadi ukuran yang adil dari sinyal "kualitas".
Saya menghitung kerataan spektral sebagai rata-rata geometris dari data daya FFT dibagi dengan rata-rata aritmatika dari titik yang sama.
Saya kemudian (sedikit twist di sini) menghitung komputasi rata-rata aritmatika berjalan (lebih dari 50 frame) dan deviasi standar dari kerataan spektral dan menghitung deviasi standar "dinormalisasi" sebagai standar deviasi berjalan dibagi dengan rata-rata berjalan.
Untuk sampel saya, saya menemukan bahwa metrik ini lebih besar dari sekitar (berkisar hingga atau lebih) ketika audio "baik" (yaitu, saya memiliki pelacakan yang dapat diandalkan dari suara pernapasan / dengkuran subjek tidur) dan umumnya tergelincir ke bawah di bawah ketika audio "di lumpur". (Saya bisa memperbaiki diskriminasi ini dengan menggunakan ambang batas yang bergerak dengan faktor-faktor lain, tapi itu mungkin topik yang berbeda.) Saya juga mengamati bahwa ukurannya lebih dari ketika ada suara latar yang substansial (misalnya, seseorang memasuki ruangan dan berbisik tentang ).
Jadi, pertanyaan dasar saya adalah: Apakah ada nama (di luar "standar deviasi standar kerataan spektral") untuk apa yang saya ukur, dan adakah yang bisa memberikan penjelasan konseptual tentang apa arti "metrik" metrik?
(Saya sudah mencoba selusin metrik lainnya untuk sinyal "kualitas", dan yang ini tampaknya yang terbaik hingga saat ini.)
Ditambahkan: Saya mungkin harus mengakui bahwa saya tidak memiliki pegangan konseptual yang sangat baik tentang apa yang diukur rata kerataan spektral (hanya artikel Wikipedia ), jadi penjelasan lebih lanjut tentang itu akan dihargai.
sumber
Jawaban:
Karena Anda tertarik pada "flatness" dari spektrum Anda, pada kenyataannya, Anda tertarik pada seberapa dekat sinyal Anda dengan white noise (yang secara definisi memiliki spektrum datar + fase acak). Jika Anda mundur, salah satu ukuran adalah "jarak" pengamatan Anda ke referensi white noise .
Ukuran yang jelas dalam hal teori informasi adalah perbedaan Kullback-Leibler . Anda tidak perlu memahami setiap bagiannya, tetapi ia mengukur dalam bit (jika Anda menggunakan basis log 2) jarak antara kedua distribusi.
Hal yang baik dalam kasus Anda adalah bahwa referensi Anda datar, sehingga yang tersisa adalah entropi spektrum Anda . Ada banyak implementasi yang ada (misalnya dalam scipy ).
Perhatikan bahwa Anda masih berada di sisi yang aman: jika distribusi Anda mendekati gaussian, kedua ukuran (entropi dan std) akan proporsional. Entropi itu lebih umum dan lebih berprinsip. Sebagai ekstensi, Anda akan dapat menggeneralisasi ke jenis suara lain (misalnya 1 / f).
sumber
p log p
- tampaknya tidak menyampaikan banyak informasi untuk masalah saya. (Meskipun saya kira saya tidak mencoba mengambil standar deviasi itu.)Setiap perbedaan konsisten yang dapat diandalkan dalam statistik sinyal Anda (atau beberapa fungsi sinyal Anda, seperti spektrumnya) dan kebisingan di mana sinyal Anda disematkan dapat digunakan untuk memperkirakan probabilitas satu terhadap yang lain.
Anda tampaknya telah menemukan (salah satu) secara acak salah satu dari sejumlah cara yang mungkin tak terbatas untuk mengkarakterisasi bentuk spektrum sinyal yang membedakan sinyal yang Anda inginkan dari hal-hal yang lebih mirip white noise atau paku impuls. Tersandung pada solusi acak yang mungkin mati tidak membatalkannya (itulah salah satu dasar pemrograman evolusioner / genetik). Tetapi seberapa kuat ukuran yang Anda temukan dibiarkan sebagai latihan eksperimental.
sumber