Mengapa kita memilih 44,1 kHz sebagai rekaman laju sampling?

21

Telinga orang bisa mendengar suara yang frekuensinya berkisar antara 20 Hz hingga 20 kHz. Berdasarkan teorema Nyquist, kecepatan perekaman minimal harus 40 kHz. Apakah itu alasan untuk memilih 44,1 kHz?

new_comer_forever
sumber
4
Itu dipilih untuk kompatibilitas dengan frame rate video. Lihat en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F
endolith
Frekuensi di atas sekitar 12-15k menambahkan sedikit atau tidak ada nilai. Biasanya. Kebanyakan orang di atas 40 akan memiliki sedikit kegunaan. Keterlihatan di atas level itu.
Chris Heath

Jawaban:

32

Memang benar bahwa, seperti konvensi lainnya, pilihan 44,1 kHz adalah semacam kecelakaan historis. Ada beberapa alasan historis lainnya.

Tentu saja, laju pengambilan sampel harus melebihi 40 kHz jika Anda ingin audio berkualitas tinggi dengan bandwidth 20 kHz.

Ada diskusi untuk membuatnya 48,0 kHz (itu sangat cocok dengan film 24 frame / detik dan nyata 30 frame / detik di TV Amerika Utara), tetapi mengingat ukuran fisik 120 mm, ada batas berapa banyak data yang diperlukan. CD bisa menahan, dan mengingat bahwa sebuah skema deteksi dan koreksi kesalahan yang dibutuhkan dan yang membutuhkan beberapa redundansi data, jumlah data logis CD dapat menyimpan (sekitar 700 MB) adalah sekitar setengah dari jumlah data fisik. Mengingat semua itu, pada kecepatan 48 kHz, kami diberitahu bahwa itu tidak bisa menampung semua yang ke-9 Beethoven, tetapi itu bisa menampung seluruh ke-9 pada satu disk dengan laju yang sedikit lebih lambat. Jadi 48 kHz keluar.

Namun, mengapa 44.1 dan bukan 44.0 atau 45.0 kHz atau angka bulat yang bagus?

Kemudian pada saat itu, ada produk di akhir 1970-an yang disebut Sony F1 yang dirancang untuk merekam audio digital ke kaset video yang tersedia (Betamax, bukan VHS). Itu berada di 44,1 kHz (atau lebih tepatnya 44,056 kHz). Jadi ini akan memudahkan untuk mentransfer rekaman, tanpa resampling dan interpolasi, dari F1 ke CD atau ke arah lain.

Pemahaman saya tentang bagaimana sampai di sana adalah bahwa tingkat pemindaian horizontal NTSC TV adalah 15,750 kHz dan 44,1 kHz persis 2,8 kali lipatnya. Saya tidak sepenuhnya yakin, tapi saya percaya apa artinya itu adalah Anda dapat memiliki tiga pasangan sampel stereo per garis horizontal, dan untuk setiap 5 garis, di mana Anda biasanya memiliki 15 sampel, ada 14 sampel ditambah satu sampel tambahan untuk beberapa parity check atau redundansi di F1. 14 sampel untuk 5 baris sama dengan 2,8 sampel per garis horizontal dan dengan 15.750 garis per detik, yang keluar menjadi 44.100 sampel per detik.

Sekarang, sejak TV berwarna diperkenalkan, mereka harus sedikit menurunkan laju garis horizontal menjadi 15734 garis per detik. Penyesuaian itu mengarah ke 44.056 sampel per detik di Sony F1.

robert bristow-johnson
sumber
8

Lihat http://www1.cs.columbia.edu/~hgs/audio/44.1.html misalnya. Anda harus menggunakan laju sampling lebih dari 40 kHz karena filter anti-aliasing. Anda harus memiliki cadangan dalam frekuensi untuk mencegah distorsi sinyal karena kemiringan tanggapan filter. Nilai aktual 44,1 kHz disarankan oleh Sony Corp ketika standar perekaman audio sedang dibahas pada tahun 1979. Mereka menggunakan kecepatan ini secara luas untuk saat itu.

Jadi itu umumnya alasan historis.

Serj
sumber
6

Dalam transisi ke format digital, audio disimpan dalam bentuk gelombang pseudo-video yang dapat dilihat sebagai hitam atau putih (mewakili format biner).

Laju dan struktur lapangan yang digunakan oleh standar televisi adalah sebagai berikut untuk video 60 Hz: 245 baris per bidang (tidak termasuk 35 baris kosong pertama). Dengan tiga sampel per baris yang membuat 60 x 245 x 3 = 44100 = 44,1 KHz.

Konvensi ini kemudian digunakan untuk format CD, karena masalah kompatibilitas peralatan (peralatan pertama yang digunakan untuk menghasilkan master CD yang digunakan untuk replikasi CD adalah berbasis video).

Sumber: The Art of Sound Reproduksi, hlm. 228

mhbuur
sumber
jika itu yang dilakukan F1, saya harus mengatakan "saya berdiri dikoreksi". Saya berasumsi F1 menggunakan garis kosong.
robert bristow-johnson
hai, saya baru saja baca di sini bahwa "NTSC color encoding digunakan dengan sinyal televisi System M, yang terdiri dari 30 / 1.001 (sekitar 29,97) frame video yang saling terkait per detik. Setiap frame terdiri dari dua bidang, masing-masing terdiri dari 262,5 garis pindai, dengan total 525 garis pindai. 483 garis pindai membentuk raster yang terlihat. Sisanya (interval pengosongan vertikal) memungkinkan sinkronisasi dan penelusuran ulang vertikal. " bahkan 490 baris pun menggunakan beberapa baris kosong (NTSC asli).
robert bristow-johnson
0

Tampaknya batas pendengaran bagi manusia mungkin jauh lebih tinggi dari 20kHz jika dilihat dari perspektif resolusi waktu "dinamis" daripada gelombang sinusoidal statis yang khas. Juga komentar menarik tentang margin antara 20kHz dan 22 kHz untuk penyaringan rekonstruksi. Sebenarnya ada karya quie yang menarik dari Peter Craven tentang pemfilteran dioptimalkan domain waktu yang menganjurkan setidaknya 96kHz untuk pemutaran hi-fi.

Pawel

Pawel
sumber
yah, ada cara untuk mengetahuinya. itu disebut Pengujian AB Buta . tidak perlu Double-Blind (tetapi biasanya). dan pengujian AB lebih baik daripada pengujian ABX menurut pendapat saya.
robert bristow-johnson
0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Teorema pengambilan sampel Nyquist – Shannon mengatakan frekuensi pengambilan sampel harus lebih besar dari dua kali frekuensi maksimum yang ingin diperbanyak. Karena rentang pendengaran manusia kira-kira 20 Hz hingga 20.000 Hz, laju pengambilan sampel harus lebih besar dari 40 kHz.

Selain itu, sinyal harus disaring low-pass sebelum pengambilan sampel untuk menghindari alias. Sementara filter low-pass yang ideal akan dengan sempurna melewatkan frekuensi di bawah 20 kHz (tanpa melemahkannya) dan dengan sempurna memotong frekuensi di atas 20 kHz, filter ideal seperti itu secara teori tidak mungkin (itu bukan sebab-sebab), jadi dalam praktiknya pita transisi diperlukan, di mana frekuensi sebagian dilemahkan. Semakin lebar pita transisi ini, semakin mudah dan ekonomis membuat filter anti-aliasing. Frekuensi pengambilan sampel 44,1 kHz memungkinkan untuk pita transisi 2,05 kHz.

Selain itu, 44.100 adalah produk dari kuadrat dari empat bilangan prima pertama (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) dan karenanya memiliki banyak faktor kecil yang berguna.

zhong
sumber
jadi jika kita mengubah satuan waktu kita dari yang kedua menjadi "farg" , yaitu 1,001 detik, lalu apa hubungannya dengan 44100 dan banyak faktor kecilnya yang bermanfaat?
robert bristow-johnson
-2

Lihat [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone untuk keterangan. Teorema yang disebut teorema pengambilan sampel Nyquist menyatakan bahwa untuk mengambil sampel sinyal X Hz tanpa kehilangan kualitas yang signifikan, Anda perlu sampel pada frekuensi 2X. Batas pendengaran manusia adalah sekitar 20kHz, yang karenanya memerlukan tingkat sampel sekitar 40KHz. Inilah sebabnya mengapa CD diambil pada 44Khz. yaitu setiap detik rekaman dalam CD berisi 44.000 pengukuran frekuensi tertinggi yang mungkin terkandung dalam rekaman.

aash ma
sumber
Ya, bukan karena itu ...
jojek
Sebagian karena itu. jarang bagi manusia untuk mendengar di atas 20k, sehingga rentang audiophile cukup sedikit di atas 40kHz, yaitu 42, 43, 44. jika Anda meledakkan seseorang dengan gelombang sinus besar di 22k, hanya anak yang memiliki kesempatan untuk mendengarnya. kelelawar 115kHz dan beberapa lumba-lumba berada di 150kHz, kecuali itu di air, yang terdengar lebih jelas. Uji persepsi frekuensi tinggi Anda secara online dengan rekaman ... yaitu di sini audiocheck.net/audiotests_frequencycheckhigh.php
com.prehensible