The transformasi Fourier umumnya digunakan untuk analisis frekuensi suara. Namun, ia memiliki beberapa kelemahan ketika harus menganalisis persepsi manusia tentang suara. Sebagai contoh, nampan frekuensinya linear, sedangkan telinga manusia merespons frekwensi logaritmik, bukan linear .
Transformasi wavelet dapat memodifikasi resolusi untuk rentang frekuensi yang berbeda , tidak seperti transformasi Fourier. Properti transformasi wavelet memungkinkan dukungan temporal besar untuk frekuensi yang lebih rendah sambil mempertahankan lebar temporal pendek untuk frekuensi yang lebih tinggi.
The Morlet wavelet berkaitan erat dengan persepsi manusia pendengaran. Ini dapat diterapkan pada transkripsi musik dan menghasilkan hasil yang sangat akurat yang tidak mungkin menggunakan teknik transformasi Fourier. Itu mampu menangkap semburan pendek pengulangan dan bolak-balik catatan musik dengan awal dan akhir waktu yang jelas untuk setiap catatan.
The konstan-Q transformasi (berkaitan erat dengan Morlet transformasi wavelet) juga sangat cocok untuk data yang musik . Karena output dari transformasi secara efektif amplitudo / fase terhadap frekuensi log, lebih sedikit tempat sampah spektral diperlukan untuk mencakup rentang yang diberikan secara efektif, dan ini terbukti berguna ketika frekuensi menjangkau beberapa oktaf.
Transformasi menunjukkan pengurangan resolusi frekuensi dengan nampan frekuensi yang lebih tinggi, yang diinginkan untuk aplikasi pendengaran. Ini mencerminkan sistem pendengaran manusia, di mana pada resolusi spektral frekuensi rendah lebih baik, sedangkan resolusi temporal meningkat pada frekuensi yang lebih tinggi.
Pertanyaan saya adalah ini: Apakah ada transformasi lain yang mirip dengan sistem pendengaran manusia? Adakah yang mencoba merancang transformasi yang secara anatomis / neurologis cocok dengan sistem pendengaran manusia sedekat mungkin?
Sebagai contoh, diketahui bahwa telinga manusia memiliki respons logaritmik terhadap intensitas suara . Diketahui juga bahwa kontur kenyaringan yang sama bervariasi tidak hanya dengan intensitas, tetapi dengan jarak dalam frekuensi komponen spektral . Suara yang mengandung komponen spektral dalam banyak pita kritis dianggap lebih keras bahkan jika tekanan suara total tetap konstan.
Akhirnya, telinga manusia memiliki resolusi temporal terbatas yang bergantung pada frekuensi . Mungkin ini bisa diperhitungkan juga.
sumber
Jawaban:
Dalam merancang transformasi seperti itu, seseorang harus mempertimbangkan kepentingan yang bersaing:
Dua desain baru -baru ini menarik perhatian saya baru-baru ini: Transformasi wavelet Gammatone yang bermotivasi auditory , Signal Processing, 2014
Transformasi ERBlet: Representasi frekuensi waktu berbasis auditory dengan rekonstruksi sempurna , ICASSP 2013
Dan saya akan menyebutkan juga:
Transformasi Berbasis Auditori Untuk Pemrosesan Sinyal Audio , WASPAA 2009
sumber