Transformasi mana yang paling mirip meniru sistem pendengaran manusia?

12

The transformasi Fourier umumnya digunakan untuk analisis frekuensi suara. Namun, ia memiliki beberapa kelemahan ketika harus menganalisis persepsi manusia tentang suara. Sebagai contoh, nampan frekuensinya linear, sedangkan telinga manusia merespons frekwensi logaritmik, bukan linear .

Transformasi wavelet dapat memodifikasi resolusi untuk rentang frekuensi yang berbeda , tidak seperti transformasi Fourier. Properti transformasi wavelet memungkinkan dukungan temporal besar untuk frekuensi yang lebih rendah sambil mempertahankan lebar temporal pendek untuk frekuensi yang lebih tinggi.

The Morlet wavelet berkaitan erat dengan persepsi manusia pendengaran. Ini dapat diterapkan pada transkripsi musik dan menghasilkan hasil yang sangat akurat yang tidak mungkin menggunakan teknik transformasi Fourier. Itu mampu menangkap semburan pendek pengulangan dan bolak-balik catatan musik dengan awal dan akhir waktu yang jelas untuk setiap catatan.

The konstan-Q transformasi (berkaitan erat dengan Morlet transformasi wavelet) juga sangat cocok untuk data yang musik . Karena output dari transformasi secara efektif amplitudo / fase terhadap frekuensi log, lebih sedikit tempat sampah spektral diperlukan untuk mencakup rentang yang diberikan secara efektif, dan ini terbukti berguna ketika frekuensi menjangkau beberapa oktaf.

Transformasi menunjukkan pengurangan resolusi frekuensi dengan nampan frekuensi yang lebih tinggi, yang diinginkan untuk aplikasi pendengaran. Ini mencerminkan sistem pendengaran manusia, di mana pada resolusi spektral frekuensi rendah lebih baik, sedangkan resolusi temporal meningkat pada frekuensi yang lebih tinggi.

Pertanyaan saya adalah ini: Apakah ada transformasi lain yang mirip dengan sistem pendengaran manusia? Adakah yang mencoba merancang transformasi yang secara anatomis / neurologis cocok dengan sistem pendengaran manusia sedekat mungkin?

Sebagai contoh, diketahui bahwa telinga manusia memiliki respons logaritmik terhadap intensitas suara . Diketahui juga bahwa kontur kenyaringan yang sama bervariasi tidak hanya dengan intensitas, tetapi dengan jarak dalam frekuensi komponen spektral . Suara yang mengandung komponen spektral dalam banyak pita kritis dianggap lebih keras bahkan jika tekanan suara total tetap konstan.

Akhirnya, telinga manusia memiliki resolusi temporal terbatas yang bergantung pada frekuensi . Mungkin ini bisa diperhitungkan juga.

pengguna76284
sumber
Apakah Anda menerapkan batasan matematis pada "transformasi"?
Olli Niemitalo
2
Pujian untuk semua tautan!
Gilles
Tidak ada satu transformasi yang dapat secara memadai meniru suatu sistem yang kompleks seperti sistem pendengaran manusia. Yang ada TELAH model menggunakan rumit arsitektur pemrosesan sinyal dan beberapa transformasi masing-masing pemodelan aspek lain dari pendengaran. Mungkin Anda ingin mempertimbangkan pemodelan sepotong demi sepotong.
Fat32

Jawaban:

9

Dalam merancang transformasi seperti itu, seseorang harus mempertimbangkan kepentingan yang bersaing:

  • kesetiaan pada sistem pendengaran manusia (yang bervariasi dengan orang-orang), termasuk aspek non-linear atau bahkan kacau (tinnitus)
  • kemudahan formulasi matematis untuk bagian analisis
  • kemungkinan untuk mendiskritisasi atau memungkinkan implementasi cepat
  • adanya invers stabil yang cocok

Dua desain baru -baru ini menarik perhatian saya baru-baru ini: Transformasi wavelet Gammatone yang bermotivasi auditory , Signal Processing, 2014

Kemampuan transformasi wavelet kontinu (CWT) untuk menyediakan waktu dan frekuensi yang baik telah membuatnya menjadi alat yang populer dalam analisis sinyal frekuensi-waktu. Wavelet menunjukkan sifat konstan-Q, yang juga dimiliki oleh filter membran basilar dalam sistem pendengaran perifer. Filter membran basilar atau filter auditori sering dimodelkan oleh fungsi Gammatone, yang memberikan perkiraan yang baik untuk respons yang ditentukan secara eksperimental. Filterbank yang berasal dari filter ini disebut sebagai bankbank Gammatone. Secara umum, analisis wavelet dapat disamakan dengan analisis bank filter dan karenanya hubungan yang menarik antara analisis wavelet standar dan bankbank Gammatone. Namun, fungsi Gammatone tidak memenuhi syarat sebagai wavelet karena rata-rata waktunya tidak nol. Kami menunjukkan bagaimana wavelet bonafid dapat dibangun dari fungsi Gammatone. Kami menganalisis properti seperti penerimaan, produk bandwidth waktu, momen hilang, yang sangat relevan dalam konteks wavelet. Kami juga menunjukkan bagaimana gelombang auditori yang diusulkan dihasilkan sebagai respon impuls dari sistem linear, sistem invarian bergeser yang diatur oleh persamaan diferensial linier dengan koefisien konstan. Kami mengusulkan implementasi rangkaian analog dari CWT yang diusulkan. Kami juga menunjukkan bagaimana wavelet yang diturunkan dari Gammatone dapat digunakan untuk deteksi singularitas dan analisis frekuensi waktu dari sinyal sementara. Kami juga menunjukkan bagaimana gelombang auditori yang diusulkan dihasilkan sebagai respon impuls dari sistem linear, sistem invarian bergeser yang diatur oleh persamaan diferensial linier dengan koefisien konstan. Kami mengusulkan implementasi rangkaian analog dari CWT yang diusulkan. Kami juga menunjukkan bagaimana wavelet yang diturunkan dari Gammatone dapat digunakan untuk deteksi singularitas dan analisis frekuensi waktu dari sinyal sementara. Kami juga menunjukkan bagaimana gelombang auditori yang diusulkan dihasilkan sebagai respon impuls dari sistem linear, sistem invarian bergeser yang diatur oleh persamaan diferensial linier dengan koefisien konstan. Kami mengusulkan implementasi rangkaian analog dari CWT yang diusulkan. Kami juga menunjukkan bagaimana wavelet yang diturunkan dari Gammatone dapat digunakan untuk deteksi singularitas dan analisis frekuensi waktu dari sinyal sementara.

Transformasi ERBlet: Representasi frekuensi waktu berbasis auditory dengan rekonstruksi sempurna , ICASSP 2013

Makalah ini menjelaskan metode untuk memperoleh representasi frekuensi waktu yang termotivasi secara sempurna dan sempurna dari sinyal suara. Berdasarkan teori kerangka dan transformasi Gabor non-stasioner baru-baru ini, representasi linier dengan resolusi berkembang melintasi frekuensi dirumuskan dan diimplementasikan sebagai bank filter non-seragam. Untuk mencocokkan resolusi frekuensi waktu pendengaran manusia, transformasi menggunakan jendela Gaussian yang berjarak sama pada skala frekuensi “ERB” psikoakustik. Selain itu, fitur transformasi resolusi dan redundansi yang dapat disesuaikan. Simulasi menunjukkan bahwa rekonstruksi sempurna dapat dicapai dengan menggunakan metode iteratif cepat dan prekondisi bahkan menggunakan satu filter per ERB dan redundansi yang sangat rendah (1,08).

Dan saya akan menyebutkan juga:

Transformasi Berbasis Auditori Untuk Pemrosesan Sinyal Audio , WASPAA 2009

Transformasi berbasis auditori disajikan dalam makalah ini. Melalui proses analisis, mengubah sinyal waktu-domain menjadi satu set output bank filter. Respons frekuensi dan distribusi bank filter mirip dengan yang ada di membran basilar koklea. Pemrosesan sinyal dapat dilakukan dalam domain sinyal yang terurai. Melalui proses sintesis, sinyal terurai dapat disintesis kembali ke sinyal asli melalui perhitungan sederhana. Juga, algoritma cepat untuk sinyal waktu diskrit disajikan untuk transformasi maju dan mundur. Transformasi telah disetujui secara teori dan divalidasi dalam eksperimen. Contoh aplikasi pengurangan kebisingan disajikan. Transformasi yang diusulkan kuat untuk suara latar belakang dan komputasi dan bebas dari harmonik pitch.

Laurent Duval
sumber
1
Inilah yang saya cari. Terima kasih.
user76284