Jika manusia hanya dapat mendengar suara frekuensi hingga 20 kHz, mengapa audio musik disampel pada 44,1 kHz?

60

Saya membaca di beberapa tempat bahwa musik sebagian besar sampel pada 44.1 kHz sedangkan kita hanya dapat mendengar hingga 20 kHz. Kenapa sih?

Soham De
sumber
1
Orang yang lebih muda dapat mendengar frekuensi yang lebih tinggi. Teknik perekaman lainnya menggunakan hingga 48 kHz.
Thorbjørn Ravn Andersen
15
Teorema Nyquist: Anda perlu dua sampel setiap ayunan untuk mengetahui frekuensi gelombang.
mathreadler
Karena prosesor lebih cepat, memori lebih murah, tetapi filter analog yang baik masih rumit, bahkan tingkat sampel yang lebih tinggi juga masuk akal (96 atau 192 kHz)
Nick T
2
@ ThorbjørnRavnAndersen Saya pikir 48 kHz adalah umum karena dapat dibagi menjadi 24, 25, dan 30 fps yang digunakan dalam produksi video. 24 tidak merata masuk ke 44100. Itulah yang disebutkan oleh Wikipedia.
Nick T
4
@ SohamDe Ini karena jika Anda mencicipi sinyal audio 20 kHz tepat pada 20 kHz, Anda tidak akan mendengar apa pun . Bayangkan, gelombang sinus yang memuncak setiap 1 / 20.000 detik. Nah, jika Anda sampel pada tingkat yang sama persis, maka Anda hanya akan mencicipi puncak (atau node, atau tingkat apa pun yang Anda kebetulan sampel di). Jadi ketika Anda membuat ulang sinyal dari digital, yang Anda dapatkan adalah garis datar. Konsep ini disebut aliasing dan membuatnya agar Anda harus mencicipi setidaknya dua kali frekuensi maksimum yang ingin Anda dengar. 44 100 Hz nyaman karena dapat dibagi oleh kekuatan 2.
MichaelK

Jawaban:

89
  1. Laju pengambilan sampel dari sinyal nyata harus lebih besar dari dua kali bandwidth sinyal. Audio secara praktis dimulai pada 0 Hz, sehingga frekuensi tertinggi yang ada dalam audio yang direkam pada 44,1 kHz adalah 22,05 kHz (22,05 kHz bandwidth).
  2. Filter brickwall yang sempurna secara matematis tidak mungkin, jadi kita tidak bisa dengan sempurna memotong frekuensi di atas 20 kHz. 2 kHz ekstra untuk roll-off filter; itu "ruang gerak" di mana audio dapat alias karena filter tidak sempurna, tetapi kita tidak bisa mendengarnya.
  3. Nilai spesifik 44,1 kHz kompatibel dengan tingkat bingkai video PAL dan NTSC yang digunakan pada saat itu.

Perhatikan bahwa alasannya dipublikasikan di banyak tempat: Wikipedia: Mengapa 44,1 kHz?

endolith
sumber
9
Hai, saya sangat setuju dengan jawaban Anda, tetapi hal "..twice the frequency tertinggi" segera menggigit pemula, karena Nyquist adalah tentang bandwidth, bukan frekuensi tertinggi; Saya melanjutkan dan sedikit mengubah jawaban Anda. Silakan periksa apakah Anda setuju.
Marcus Müller
2
@Ruslan: Wikipedia cukup bagus tentang itu.
jojek
2
@BrianDrummond Jadi sunting?
endolith
3
@ MarcusMüller pemula siapa yang digigit oleh “Nyqvist yang tertinggi diperbolehkan frekuensi” akan mendapatkan digigit pula, dengan membuat alias artefak ... Setelah itu, mereka juga akan memahami bagaimana setiap rentang frekuensi bandwidth didemodulasi ke salah satu antara dan . Δf0Δf=fs/2
leftaroundtentang
1
Seseorang mungkin tidak dapat membedakan antara suara 19.999.9Hz dengan sepuluh harmonik atau suara 20.000.1Hz dengan sembilan jika seseorang mendengarnya secara terpisah, tetapi itu tidak berarti transisi antara keduanya tidak akan terdengar. Memiliki filter dengan cut-off yang lebih bertahap akan menghindari masalah seperti itu.
supercat
72

44.100 dipilih oleh Sony karena merupakan produk kuadrat dari empat bilangan prima pertama. Ini membuatnya dapat dibagi oleh banyak bilangan bulat lainnya , yang merupakan properti yang berguna dalam pengambilan sampel digital.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Seperti yang Anda perhatikan, 44100 juga tepat di atas batas pendengaran manusia dua kali lipat. Bagian di atas memberikan filter beberapa kelonggaran, sehingga membuatnya lebih murah (lebih sedikit chip yang ditolak).

Seperti yang ditunjukkan Russell dalam komentar, aspek yang dapat dibagi oleh banyak bilangan bulat lainnya memiliki manfaat langsung pada saat laju sampel dipilih. Audio digital awal direkam pada media perekaman video analog yang ada yang mendukung, tergantung pada wilayah, baik spesifikasi video NTSC atau PAL . NTSC dan PAL memiliki Lines berbeda per Field dan Fields per Second rate, LCM yang (bersama-sama dengan Sampel per Line) adalah 44100 .

dotancohen
sumber
12
Pilihannya bukan hanya tentang mendapatkan banyak faktor utama, tetapi secara khusus untuk memanfaatkan peralatan perekaman video NTSC dan PAL untuk menyimpan master digital. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove
3
@RussellBorogove: Terima kasih. Sesuai tautan Wiki, 44100 adalah LCM dari laju sampel tarif NTSC dan fitur video PAL . Itu adalah konsekuensi langsung dari menjadi nomor dengan begitu banyak faktor, dan saya yakin Anda benar bahwa kuda memimpin kereta pada spec ini.
dotancohen
1
Dapat dibagi dengan banyak angka, tetapi bukan oleh 8 :)
Bogdan Alexandru
(Wikipedia mengatakan berbagai tingkat dari 40,5 hingga 46,8 kHz akan memenuhi kriteria ini, dan 44,1 kHz dipilih untuk menyediakan pita transisi untuk filter antiliasing)
endolith
2
@BogdanAlexandru Juga tidak dapat dibagi oleh frame 1 ms USB: D
endolith
13

Tingkat Nyquist di atas dua kali bandlimit dari sinyal baseband yang ingin Anda tangkap tanpa ambiguitas (misalnya aliasing).

Sampel pada tingkat yang lebih rendah dari dua kali 20kHz, dan Anda tidak akan dapat membedakan antara frekuensi sangat tinggi dan sangat rendah hanya dari melihat sampel, karena aliasing.

Ditambahkan: Perhatikan bahwa setiap sinyal panjang terbatas memiliki dukungan tak terbatas dalam domain frekuensi, sehingga tidak sepenuhnya terbatas. Ini adalah alasan lain mengapa pengambilan sampel sumber audio tidak terbatas sedikit di atas dua kali spektrum frekuensi tertinggi (dalam sinyal baseband) diperlukan untuk menghindari aliasing yang signifikan (di luar alasan roll-off transisi filter terbatas).

hotpaw2
sumber
Hai, saya sangat setuju dengan jawaban Anda, tetapi hal "..twice the frequency tertinggi" segera menggigit pemula, karena Nyquist adalah tentang bandwidth, bukan frekuensi tertinggi; Saya melanjutkan dan sedikit mengubah jawaban Anda. Silakan periksa apakah Anda setuju.
Marcus Müller
6
@ MarcusMüller, karena "pemula" untuk pengambilan sampel mulai dengan pengambilan sampel baseband sinyal dan tidak sinyal passband, itu benar-benar adalah tentang frekuensi tertinggi (kadang-kadang disebut "bandlimit") dan tidak bandwidth (yang memiliki ambiguitas tambahan mengenai satu sisi atau dua sisi bandwidth).
robert bristow-johnson
@ robertbristow-johnson belum melihat ambiguitas itu. Hm; Saya suka pendekatan bandlimit!
Marcus Müller
3
dalam artikel Wikipedia kami menyebutnya " " dan, meskipun Shannon mengatakan sudah cukup, ia mengasumsikan energi terbatas, sehingga tidak ada sinusoid (yang memiliki energi tak terbatas dan juga dapat menempatkan dirac delta di ). jika Anda mengizinkan hak sinusoid pada frekuensi , maka itu lebih sering dinyatakan . Bfs2B±BBfs>2B
robert bristow-johnson
10

Pada dasarnya, dua kali bandwidth adalah persyaratan umum untuk pengambilan sampel sinyal, sehingga kHz adalah minimum. Kemudian, sedikit lebih berguna untuk mengatasi penyaringan dan kuantisasi yang tidak sempurna . Detail mengikuti.2×20=40

Apa yang Anda butuhkan dalam teori bukanlah apa yang diperlukan dalam praktik. Ini sesuai dengan kutipan (dikaitkan dengan banyak):

Secara teori tidak ada perbedaan antara teori dan praktik. Dalam praktiknya ada.

Saya bukan ahli audio, tetapi saya telah dilatih oleh orang-orang pengambilan sampel / kompresi audio berkualitas tinggi. Pengetahuan saya mungkin berkarat, bawa dengan hati-hati.

Pertama, teori pengambilan sampel standar bekerja di bawah beberapa asumsi: sistem linear, dan invarian waktu. Kemudian, sebuah fenomena terbatas pita kontinu diketahui, secara teori, kemungkinan sampel sekitar dua kali bandwidth (atau dua kali frekuensi maksimum untuk sinyal pita dasar) tanpa kehilangan. "Tingkat Nyquist" sering didefinisikan sebagai:

tingkat minimum di mana sinyal dapat diambil sampelnya tanpa menimbulkan kesalahan

Ini adalah bagian analisis dari "teorema pengambilan sampel". "Bisa" itu penting. Ada bagian sintesis: sinyal kontinu " dapat direkonstruksi" secara analog menggunakan kardinal. Ini bukan satu-satunya teknik, dan tidak memperhitungkan low-pass prefiltering, non-linear (seperti kuantisasi, saturasi) dan faktor varian waktu lainnya.

Pendengaran manusia bukanlah topik yang sederhana. Diterima bahwa manusia mendengar frekuensi dari 20 Hz hingga 20.000 Hz. Tetapi batas-batas yang tepat seperti itu di Hertz bukanlah sifat alami untuk semua manusia. Hilangnya sensitivitas secara bertahap terhadap frekuensi yang lebih tinggi sering terjadi seiring bertambahnya usia. Di sisi lain:

Di bawah kondisi laboratorium yang ideal, manusia dapat mendengar suara serendah 12 Hz dan setinggi 28 kHz, meskipun ambang meningkat tajam pada 15 kHz pada orang dewasa

Pendengaran tidak linear: ada ambang batas audisi dan penderitaan . Itu bukan invarian waktu. Ada efek masking di kedua waktu dan frekuensi.

Jika band 20 Hz hingga 20.000 Hz adalah rentang umum, dan 40.000 Hz secara teoritis sudah cukup, sedikit tambahan diperlukan untuk mengatasi distorsi ekstra. Aturan praktis mengatakan bahwa 10% lebih banyak ok ( bandwidth sinyal ) dan 44.100 Hz hanya melakukannya. Kembali ke akhir 1970-an. Mengapa tidak digunakan 44.000 Hz? Terutama karena standar, yang ditentukan oleh popularitas CD, yang teknologinya selalu didasarkan pada pertukaran. Selain itu, 44.100 adalah produk kuadrat dari empat bilangan prima pertama ( ), karenanya memiliki faktor kecil, menguntungkan untuk perhitungan (seperti FFT).2.2×22×32×52×72

Jadi dari hingga (dan berlipat ganda), kami memiliki keseimbangan dalam keamanan, kuantisasi, kegunaan, perhitungan dan standar.2×2044.1

Pilihan lain ada: format DAT misalnya dirilis dengan pengambilan sampel 48 kHz, dengan konversi yang awalnya sulit. 96 kHz dibahas sehubungan dengan kuantisasi (atau kedalaman bit) pada laju sampel dan kedalaman bit apa yang harus saya gunakan? Ini adalah subjek yang kontroversial, lihat 24 bit 48kHz ayat 24 bit 96kHz . Anda dapat memeriksa tingkat sampel Audacity misalnya.

Laurent Duval
sumber
2
1. Jawaban atas pertanyaan adalah bahwa teorema Nyquist menentukan> 40kHz, bukan> 20kHz. 2. Baik pendengaran manusia maupun format CD terbatas pada 20Hz di bagian bawah. Organ pipa yang cukup besar dapat menghasilkan nada 16Hz, dan CD dapat mereproduksi dengan mudah. Beberapa organ turun ke 8Hz, yang mulai dirasakan sebagai getaran individu, tetapi yang lagi-lagi CD dapat mereproduksi.
user207421
Saya setuju dengan komentar Anda, kecuali untuk "menentukan" (ini adalah kondisi "jika"). Bisakah Anda menunjukkan di mana saya telah menyimpang dari itu?
Laurent Duval
1
Saya hanya punya satu suplemen untuk jawaban @LaurentDuval. Pidato, musik, dan suara secara umum adalah sinyal non-stasioner. Meskipun ini adalah bandlimited efektif tetapi kita belum tahu bagaimana telinga manusia mentransduksi sinyal waktu terus menerus ke syaraf yang memfasilitasi persepsi kita tentang suara. Sering dikatakan bahwa beberapa orang memiliki "telinga emas" dan dapat membuat perbedaan antara rekaman 44,1 kHz versus 96 kHz. Juga, saya belum mengkonfirmasi hal berikut, tampaknya tingkat pengambilan sampel yang lebih tinggi menguntungkan persepsi tentang isyarat tambahan, seperti lokalisasi dalam rekaman binaural.
Neeks
0

Mengapa tepatnya 44,1 kHz telah dijawab - tetapi untuk fokus pada aspek pertanyaan Anda terkait dengan batas persepsi manusia, alasannya cukup sederhana.

Resolusi dalam waktu harus cukup baik untuk dapat menghasilkan semua bentuk gelombang yang mungkin hingga batas yang dapat dilihat. Menurut teorema sampling , resolusi harus sedemikian rupa sehingga frekuensi sampling setidaknya dua kali frekuensi ini. Secara intuitif, pada frekuensi tertinggi, Anda memerlukan setidaknya 2 titik untuk mewakili maksimum dan minimum sinyal Anda - memberikan gelombang persegi Ascii-art ini:

_   _
 |_| |_
meduz
sumber
-1

Untuk mereproduksi sinyal dengan setia, semakin cepat tingkat sampel semakin baik. ~ 40 kHz dipilih, karena itu adalah tingkat sampel rendah yang kebanyakan orang tidak bisa membedakan (ketika direkonstruksi). Ketika pengambilan sampel audio diperkenalkan, memori dan penyimpanan menjadi mahal dan tingkat sampel yang lebih tinggi tidak semurah mungkin.

Pada dua kali lipat batas atas pendengaran manusia, dua sampel per siklus adalah rekonstruksi yang sangat buruk, bahkan jika memenuhi kriteria Nyquist untuk sinyal sampel, bagan sederhana yang menggambarkan gelombang sinus dengan dua sampel per siklus akan menunjukkan seberapa buruk dua sampel per siklus adalah dalam mereproduksi bentuk gelombang. Anda benar-benar dapat mengubah gelombang sinus menjadi gelombang persegi; itu adalah hal yang baik pada 20 kHz tidak ada yang tahu. Aku yakin seekor anjing bisa melakukannya.

mikrofon
sumber