Ketika Anda meletakkan sesuatu ke telinga Anda mereproduksi rekaman stereo standar, Anda tidak ingin respons frekuensi datar karena fungsi transfer terkait-kepala yang biasanya berperan untuk sumber suara jauh lebih jauh terlihat sangat berbeda ketika sumber berada di telinga Anda .
Izinkan saya mengutip beberapa paragraf dari sebuah buku :
Dari semua komponen dalam rantai transmisi elektroakustik, headphone adalah yang paling kontroversial. Kesetiaan yang tinggi dalam arti sebenarnya, tidak hanya melibatkan timbre tetapi juga pelokalan spasial, lebih terkait dengan stereophony pengeras suara karena lokalisasi headphone yang terkenal di kepala. Namun rekaman binaural dengan kepala dummy, yang paling menjanjikan untuk kesetiaan tinggi yang nyata, ditakdirkan untuk reproduksi headphone. Bahkan di masa kejayaan mereka, mereka tidak menemukan tempat dalam perekaman dan penyiaran rutin. Pada saat itu penyebabnya adalah lokalisasi frontal yang tidak dapat diandalkan, ketidakcocokan dengan reproduksi pengeras suara, serta kecenderungan mereka untuk tidak estetika. Karena pemrosesan sinyal digital (DSP) dapat memfilter secara rutin menggunakan fungsi transfer terkait kepala binaural, HRTF, kepala boneka tidak lagi diperlukan.
Aplikasi headphone yang paling umum adalah memberi mereka sinyal stereo yang awalnya ditujukan untuk pengeras suara. Ini menimbulkan pertanyaan tentang respons frekuensi ideal. Untuk perangkat lain dalam rantai transmisi (Gbr. 14.1), seperti mikrofon, amplifier dan pengeras suara, respons datar biasanya merupakan tujuan desain, dengan penyimpangan yang mudah ditentukan dari respons ini dalam kasus khusus. Loudspeaker diperlukan untuk menghasilkan respons SPL datar pada jarak 1 m. SPL bidang bebas pada titik ini mereproduksi SPL di lokasi mikrofon di bidang suara, katakanlah, konser sedang direkam. Mendengarkan rekaman di depan LS, kepala pendengar mendistorsi SPL secara linear dengan difraksi. Sinyal telinganya tidak lagi menunjukkan respons datar. Namun, ini tidak perlu menjadi perhatian produsen loudspeaker, karena ini juga akan terjadi jika pendengar hadir di pertunjukan live. Di sisi lain, pabrikan headphone secara langsung peduli dengan memproduksi sinyal telinga ini. Persyaratan yang ditetapkan dalam standar telah menyebabkan headphone terkalibrasi medan bebas, yang respons frekuensinya mereplikasi sinyal telinga untuk loudspeaker di depan, serta kalibrasi medan difus, di mana tujuannya adalah untuk mereplikasi SPL di telinga seorang pendengar untuk suara menimpa dari segala arah. Diasumsikan bahwa banyak pengeras suara memiliki sumber yang tidak jelas masing-masing dengan respons tegangan datar. produsen headphone secara langsung berkaitan dengan memproduksi sinyal telinga ini. Persyaratan yang ditetapkan dalam standar telah menyebabkan headphone terkalibrasi medan bebas, yang respons frekuensinya mereplikasi sinyal telinga untuk loudspeaker di depan, serta kalibrasi medan difus, di mana tujuannya adalah untuk mereplikasi SPL di telinga seorang pendengar untuk suara menimpa dari segala arah. Diasumsikan bahwa banyak pengeras suara memiliki sumber yang tidak jelas masing-masing dengan respons tegangan datar. produsen headphone secara langsung berkaitan dengan memproduksi sinyal telinga ini. Persyaratan yang ditetapkan dalam standar telah menyebabkan headphone terkalibrasi medan bebas, yang respons frekuensinya mereplikasi sinyal telinga untuk loudspeaker di depan, serta kalibrasi medan difus, di mana tujuannya adalah untuk mereplikasi SPL di telinga seorang pendengar untuk suara menimpa dari segala arah. Diasumsikan bahwa banyak pengeras suara memiliki sumber yang tidak jelas masing-masing dengan respons tegangan datar. di mana tujuannya adalah untuk mereplikasi SPL di telinga pendengar untuk suara menimpa dari segala arah. Diasumsikan bahwa banyak pengeras suara memiliki sumber yang tidak jelas masing-masing dengan respons tegangan datar. di mana tujuannya adalah untuk mereplikasi SPL di telinga pendengar untuk suara menimpa dari segala arah. Diasumsikan bahwa banyak pengeras suara memiliki sumber yang tidak jelas masing-masing dengan respons tegangan datar.
(a) Respon medan bebas: Untuk kekurangan referensi yang lebih baik, berbagai standar internasional dan lainnya telah menetapkan persyaratan berikut untuk headphone dengan kesetiaan tinggi: respons frekuensi dan kenyaringan yang dirasakan untuk input sinyal mono tegangan konstan adalah perkiraan bahwa dari loudspeaker respons datar di depan pendengar dalam kondisi anechoic. Fungsi transfer medan bebas (FF) headphone pada frekuensi tertentu (1000 Hz dipilih sebagai referensi 0 dB) sama dengan jumlah dalam dB di mana sinyal headphone akan diperkuat untuk memberikan kenyaringan yang sama. Diperlukan rata-rata jumlah subjek minimum (biasanya delapan). [...] Gambar 14.76 menunjukkan bidang toleransi khas.
(B) Diffus-bidang respon: Selama 1980-an ada mulai gerakan untuk mengganti persyaratan standar-lapangan bebas, di mana bidang difus (DF) adalah referensi. Ternyata, ia telah masuk ke dalam standar, tetapi tanpa mengganti yang lama. Keduanya sekarang berdiri berdampingan. Ketidakpuasan dengan referensi FF muncul terutama dari besarnya puncak 2 kHz. Itu bertanggung jawab atas pewarnaan gambar, karena lokalisasi frontal tidak tercapai bahkan untuk sinyal mono. Cara mekanisme pendengaran merasakan warna dijelaskan oleh model asosiasi Theile (Gbr. 14.62). Perbandingan respons telinga untuk bidang difus dan bidang bebas ditunjukkan pada Gambar 14.77. [...] Karena tes mendengarkan subyektif adalah yang penting, Headphone FF sejauh ini lebih merupakan pengecualian daripada aturan. Langit-langit dengan respons frekuensi yang berbeda tersedia untuk memenuhi preferensi individu, dan masing-masing produsen memiliki filosofi headphone sendiri dengan respons frekuensi mulai dari bidang datar hingga bebas dan seterusnya.
Masalah perbedaan HRTF ini juga mengapa driver miring (dalam headphone) terdengar lebih baik bagi orang-orang yang dijual oleh perusahaan seperti Sennheiser. Driver miring tidak sepenuhnya membuat headphone terdengar seperti speaker.
Di pabrik atau di laboratorium, telinga buatan digunakan saat mengukur respons frekuensi. Yang di bawah ini adalah yang tingkat lab; tingkat pabrik sedikit lebih sederhana.
Saya juga menemukan metodologi yang digunakan oleh situs HeadRoom itu :
Cara kami menguji respons frekuensi: Untuk melakukan tes ini, kami menggerakkan headphone dengan serangkaian 200 nada pada tegangan yang sama dan frekuensi yang semakin meningkat. Kami kemudian mengukur output pada setiap frekuensi melalui telinga mikrofon Head Acoustics yang sangat terspesialisasi. Setelah itu kami menerapkan kurva koreksi audio yang menghilangkan fungsi transfer terkait kepala dan secara akurat menghasilkan data untuk ditampilkan.
Mikrofon yang digunakan mungkin yang ini . Tampaknya mereka benar-benar membalikkan fungsi transfer kepala / telinga boneka melalui perangkat lunak karena mereka mengatakan tepat sebelum itu bahwa "Secara teoritis, grafik ini harus berupa garis datar pada 0dB." ... tapi saya tidak sepenuhnya yakin apa yang mereka lakukan ... karena setelah itu mereka mengatakan "Sebuah headphone" terdengar alami "harus sedikit lebih tinggi pada bass (sekitar 3 atau 4 dB) antara 40Hz dan 500Hz." dan "Headphone juga perlu digulung di posisi tertinggi untuk mengimbangi driver yang begitu dekat dengan telinga; garis datar yang landai dari 1kHz ke sekitar 8-10dB turun pada 20kHz sudah tepat." Yang tidak cukup kompilasi untuk saya sehubungan dengan pernyataan mereka sebelumnya tentang pembalikan / menghapus HRTF.
Melihat beberapa sertifikat yang diperoleh orang dari pabrikan (Sennheiser) untuk model headphone (HD800) yang digunakan dalam contoh HeadRoom itu, tampaknya HeadRoom menampilkan data tanpa asumsi model koreksi untuk headphone itu sendiri (yang akan menjelaskan mengapa mereka memberikan saran interpretasi selanjutnya, jadi saran awal "flat" mereka adalah yang menyesatkan), sedangkan Sennheiser menggunakan koreksi DF (bidang difus) sehingga grafik mereka terlihat hampir datar.
Ini hanya dugaan saja, perbedaan peralatan pengukuran (dan / atau antara sampel headphone) dapat menjelaskan perbedaan tersebut karena tidak terlalu besar.
Bagaimanapun, ini adalah area penelitian aktif dan berkelanjutan (seperti yang Anda duga dari kalimat terakhir yang dikutip di atas tentang DF). Ada beberapa hal yang dilakukan oleh beberapa peneliti HK; Saya tidak memiliki (gratis) akses ke makalah AES mereka, tetapi beberapa ringkasan yang cukup luas dapat dibaca di blog innerfidelity 2013 , 2014 serta tautan berikut dari blog penulis HK utama, Sean Olive ; sebagai jalan pintas, berikut adalah beberapa slide gratis dari presentasi terbaru (Nov 2015) yang ditemukan di sana. Ini sedikit materi ... Saya hanya melihatnya sebentar, tetapi tema tampaknya DF yang tidak cukup baik.
Berikut adalah beberapa slide menarik dari salah satu presentasi mereka sebelumnya . Pertama, respons frekuensi penuh (tidak terpotong hingga 12 KHz) dari HD800 dan pada peralatan yang diungkapkan lebih jelas:
Dan mungkin yang paling menarik bagi OP, suara bats Beats yang tidak begitu menarik, diberikan dibandingkan dengan headphone yang harganya empat hingga enam kali lipat.
Jawaban sederhananya adalah bahwa sistem respons frekuensi datar yang dibangun dengan op-amp untuk mengoreksi respons driver tentu akan memiliki respons fase yang sangat tidak rata dalam pass band. Ketidaklembutan ini berarti frekuensi komponen suara transien menjadi tertunda secara tidak merata, menghasilkan distorsi sementara halus yang mencegah pengenalan komponen suara yang tepat, yang berarti lebih sedikit suara yang berbeda dapat dilihat.
Akibatnya, kedengarannya mengerikan. Seolah-olah semua suara berasal dari bola fuzzy yang terpusat tepat di antara telinga seseorang.
Masalah HRTF dalam jawaban di atas hanya sebagian saja - yang lain adalah bahwa rangkaian domain analog yang dapat direalisasi hanya dapat memiliki respons waktu sebab akibat, dan untuk mengoreksi pengemudi dengan benar, diperlukan filter asma.
Ini dapat didekati secara digital dengan filter Finite Impulse Response yang cocok dengan driver, tetapi ini memerlukan sedikit penundaan waktu yang cukup untuk membuat film sangat tidak sinkron.
Dan masih terdengar seperti itu berasal dari dalam kepala Anda, kecuali HRTF juga ditambahkan kembali.
Jadi, tidak sesederhana itu.
Untuk membuat sistem "transparan", Anda tidak hanya membutuhkan pita lintasan rata pada rentang pendengaran manusia, Anda juga memerlukan fase linier - plot keterlambatan grup datar - dan ada beberapa bukti yang menunjukkan bahwa fase linear ini memerlukan untuk melanjutkan hingga frekuensi yang sangat tinggi sehingga isyarat arah tidak hilang.
Ini mudah diverifikasi dengan eksperimen: Buka .wav dari beberapa musik yang Anda kenal dalam editor file suara seperti Audacity atau snd, dan hapus satu sampel tunggal 44100 Hz dari hanya satu saluran, dan luruskan kembali saluran lain sehingga yang pertama sampel sekarang terjadi dengan yang kedua dari saluran yang diedit, dan memutarnya kembali.
Anda akan mendengar perbedaan yang sangat mencolok, meskipun perbedaannya adalah waktu tunda hanya 1/44100 detik.
Pertimbangkan ini: suara berjalan sekitar 340 mm / ms, jadi pada 20 kHz ini adalah kesalahan waktu plus minus satu keterlambatan sampel, atau 50 mikrodetik. Itu 17 mm perjalanan suara, namun Anda dapat mendengar perbedaannya dengan 22,67 mikrodetik yang hilang, yang hanya 7,7 mm perjalanan suara.
Cut-off mutlak pendengaran manusia umumnya dianggap sekitar 20 kHz, jadi apa yang terjadi?
Jawabannya adalah bahwa tes pendengaran dilakukan dengan nada uji yang sebagian besar terdiri dari hanya satu frekuensi pada suatu waktu, untuk waktu yang cukup lama di setiap bagian dari tes. Tetapi telinga bagian dalam kita terdiri dari struktur fisik yang melakukan FFT pada jenis suara sambil mengekspos neuron untuk itu, sehingga neuron pada posisi yang berbeda berkorelasi dengan frekuensi yang berbeda.
Neuron individu hanya dapat menembak ulang dengan sangat cepat, sehingga dalam beberapa kasus beberapa digunakan satu demi satu untuk mengikuti ... tetapi ini hanya bekerja hingga sekitar 4 kHz atau lebih ... Yang mana persis di mana kami persepsi nada berakhir. Namun tidak ada di otak untuk menghentikan neuron yang menembak kapan saja ia merasa sangat condong, jadi apa frekuensi tertinggi yang penting?
Intinya adalah bahwa perbedaan fasa kecil antara telinga terlihat, tetapi alih-alih mengubah cara kita mengidentifikasi suara (dengan struktur spektografiknya) itu memengaruhi cara kita memahami arahnya. (yang HRTF juga berubah!) Meskipun sepertinya harus "digulirkan" dari jangkauan pendengaran kami.
Jawabannya adalah titik -3dB atau bahkan -10dB masih terlalu rendah - Anda harus pergi ke titik -80 dB untuk mendapatkan semuanya. Dan jika Anda ingin menangani suara keras dan juga tenang, maka Anda harus lebih baik hingga lebih baik dari -100 dB. Yang tidak mungkin pernah dilihat oleh tes mendengarkan nada tunggal, terutama karena frekuensi seperti itu hanya "menghitung" ketika mereka tiba secara harmonis sebagai bagian dari suara transien yang tajam - energi mereka dalam kasus ini ditambah bersama-sama, mencapai konsentrasi yang cukup untuk memicu respons saraf, meskipun sebagai komponen frekuensi individu dalam isolasi mereka mungkin terlalu kecil untuk dihitung.
Masalah lain adalah bahwa kita terus dibombardir oleh banyak sumber kebisingan ultrasonik, mungkin banyak dari itu dari neuron yang rusak di telinga bagian dalam kita sendiri, rusak oleh tingkat suara yang berlebihan pada beberapa titik sebelumnya dalam hidup kita. Akan sulit untuk membedakan nada keluaran terisolasi dari tes mendengarkan atas suara "lokal" yang begitu keras!
Oleh karena itu ini memerlukan desain sistem "transparan" untuk menggunakan frekuensi low-pass yang jauh lebih tinggi sehingga ada ruang bagi low-pass manusia untuk memudar (dengan modulasi fase itu sendiri yang otaknya sudah "dikalibrasi" untuk) sebelum sistem modulasi fase mulai mengubah bentuk transien, dan menggeser mereka dalam waktu sedemikian rupa sehingga otak tidak dapat mengenali suara yang mereka miliki.
Dengan headphone, jauh lebih mudah untuk membuat mereka memiliki driver broadband tunggal dengan bandwidth yang cukup, dan mengandalkan respons frekuensi alami yang sangat tinggi dari driver 'tidak dikoreksi' untuk mencegah distorsi temporal. Ini bekerja jauh lebih baik dengan earphone, karena massa kecil pengemudi cocok untuk kondisi ini.
Alasan untuk memerlukan linearitas fase berakar dalam pada dualitas waktu-domain frekuensi-domain, karena alasan Anda tidak dapat membuat filter penundaan nol yang dapat "memperbaiki dengan sempurna" sistem fisik nyata apa pun.
Alasannya adalah "linearitas fase" yang penting dan bukan "flatness fase" adalah karena keseluruhan kemiringan kurva fase tidak penting - secara dualisme, setiap kemiringan fasa sama dengan penundaan waktu yang konstan.
Telinga luar setiap orang memiliki bentuk yang berbeda, dan dengan demikian fungsi transfer yang berbeda terjadi pada frekuensi yang sedikit berbeda. Otak Anda terbiasa dengan apa yang dimilikinya, dengan resonansi berbeda. Jika Anda menggunakan yang salah, itu sebenarnya hanya akan terdengar lebih buruk, karena koreksi yang digunakan otak Anda tidak akan lagi sesuai dengan yang ada di fungsi transfer earphone, dan Anda akan memiliki sesuatu yang lebih buruk daripada kurangnya pembatalan resonansi - Anda akan memiliki dua kali lebih banyak kutub tidak seimbang / nol mengacaukan penundaan fase Anda, dan benar-benar mengacaukan keterlambatan grup Anda dan komponen tiba hubungan waktu.
Ini akan terdengar sangat tidak jelas, dan Anda tidak akan dapat melihat pencitraan spasial yang dikodekan oleh rekaman.
Jika Anda melakukan tes pendengaran A / B yang buta, semua orang akan memilih headphone yang tidak dikoreksi yang setidaknya tidak terlalu membuat kelompok tertunda, sehingga otak mereka dapat menyesuaikan diri dengan mereka.
Dan inilah mengapa headphone aktif tidak mencoba menyamakan kedudukan. Terlalu sulit untuk menjadi benar.
Itu juga mengapa koreksi ruang digital adalah ceruk itu: Karena menggunakannya dengan benar membutuhkan pengukuran sering, yang sulit / tidak mungkin untuk dilakukan secara langsung, dan yang konsumen umumnya tidak ingin mengetahuinya.
Sebagian besar karena resonansi akustik di ruangan dalam koreksi, yang sebagian besar merupakan bagian dari respon bass, terus bergeser sedikit ketika tekanan udara, suhu dan kelembaban semua berubah, sehingga mengubah kecepatan suara sedikit, sehingga mengubah resonansi menjauh dari apa yang mereka adalah saat pengukuran dilakukan.
sumber
Artikel dan diskusi yang menarik. Kita cenderung berpikir bahwa teorema Nyquist adalah aturan yang berlaku di mana-mana, dan kemudian kita mengetahui bahwa itu tidak berlaku. Anda mengukur batas pendengaran manusia hingga 20kHz menggunakan gelombang sinus, dan kemudian sampel pada 44,1 atau 48 kHz dengan keyakinan bahwa Anda telah menangkap semua yang dapat didengar telinga. Namun menggeser satu saluran dengan satu sampel menyebabkan perubahan signifikan yang dibuat meskipun perbedaannya, sementara, di atas 20kHz.
Dalam gambar bergerak, kami pikir mata mengintegrasikan gambar dengan frame rate di atas 20 frame per detik. Jadi film direkam pada 24fps dan diputar ulang dengan rana 2x untuk mengurangi flicker (48fps); TV adalah frame rate 50 atau 60 Hz tergantung pada wilayah. Beberapa dari kita dapat melihat flicker frame rate 50 Hz, terutama jika kita sudah dewasa dengan 60 Hz. Tapi disinilah tempatnya menarik. Pada Hollywood Professional Association Tech Retreat dan konferensi SMPTE selama beberapa tahun terakhir, telah ditunjukkan bahwa rata-rata pemirsa melihat peningkatan kualitas yang signifikan ketika bingkai asli diperpanjang dari 60 Hz hingga 120 Hz. Yang lebih mengejutkan, pemirsa yang sama melihat peningkatan yang sama ketika meningkatkan frame rate dari 120 menjadi 240 Hz. Nyquist akan memberi tahu kita bahwa jika kita tidak dapat melihat frame rate pada 24, kita hanya perlu menggandakan frame rate untuk menjamin menangkap semua yang dapat diselesaikan mata; namun di sini kita berada di 10x frame rate dan masih mengamati perbedaan yang nyata.
Jelas ada banyak hal yang terjadi di sini. Dalam hal pencitraan gerak, gerakan dalam gambar memengaruhi laju bingkai yang diperlukan. Dan dalam audio, saya berharap kompleksitas dan kepadatan dari soundscape menentukan resolusi audio yang dibutuhkan. Semua suara itu jauh lebih tergantung pada koherensi fase mereka daripada respons frekuensi untuk memberikan artikulasi yang diperlukan untuk pencitraan.
sumber