Penundaan audio maksimum sebelum pemberitahuan pemain?

38

Diberikan beberapa peristiwa dalam sebuah game, berapa lama keterlambatan untuk menghasilkan audio yang pemain akan mengasosiasikan audio dengan benar dengan peristiwa itu (dan tidak merasakan kelambatan)?

edA-qa mort-ora-y
sumber
Tidak banyak. Saya kira itu harus kurang dari 1/10 detik. Meskipun secara pribadi, saya mungkin memperhatikannya jika lebih dari beberapa frame pada 60 FPS.
Almo
Jangan lupa bahwa dalam kebanyakan kasus, output yang diberikan akan memiliki beberapa kelambatan juga, beberapa di antaranya akan berasal dari monitor. Diperlukan waktu lebih dari 100 ms agar hasil input pemain ditampilkan di layar. Lihat anandtech.com/show/2803
Adam
1
Sekitar 20 milidetik saat memainkan alat musik, sekitar 80 milidetik saat Anda menjadi pendengar. Ini hanya pengalaman pribadi saya, jarak tempuh Anda mungkin berbeda.
rwols
Lebih dari waktu tertentu Anda memerlukan konsistensi. Selama semuanya memiliki penundaan yang sama, Anda bisa masuk akal. Jika semuanya terlambat 100 ms, Anda mungkin tidak benar-benar memperhatikannya, tetapi jika beberapa suara hampir instan dan sisanya 100 ms atau lebih, maka Anda akan melihat.
0xFADE
Jika Anda tertarik pada perilaku realistis, Anda dapat menganggap penundaan untuk acara yang jauh dari pendengar sebagai sesuatu yang positif.
Darkwings

Jawaban:

48

Hasil berikut dihitung untuk sinkronisasi bibir yang dianggap sebagai "kesalahan sinkronisasi a / v yang paling mencolok" .


Wikipedia mengatakan

Untuk aplikasi televisi, audio harus menghasilkan video tidak lebih dari 15 milidetik dan audio seharusnya video tidak lebih dari 45 milidetik. Untuk film, sinkronisasi bibir yang dapat diterima dianggap tidak lebih dari 22 milidetik di kedua arah.


Laboratorium Persepsi Media dan Akustik mengatakan

Hasil percobaan menentukan bahwa rata-rata ambang depan audio untuk deteksi sinkronisasi a / v adalah 185,19 ms, dengan standar deviasi 42,32 ms


ATSC mengatakan

Sepintas sepertinya longgar: +90 ms hingga -185 ms sebagai "Window of Acceptability"

dan

  • Tidak dapat terdeteksi dari -100 ms hingga +25 ms
  • Terdeteksi pada -125 ms & +45 ms
  • Menjadi tidak dapat diterima di -185 ms & +90 ms

(- Suara tertunda, + Suara canggih)


Untuk menyimpulkan

Hasilnya tidak jauh dari satu sama lain. Tampaknya penundaan maksimum yang dapat diterima adalah sekitar 150ms, yaitu 9 frame pada 60 frame per detik.

Heckel
sumber
3
"Jika Anda memiliki penundaan, itu harus video yang tertunda." tampaknya harus dibalik, artikel ATSC dengan jelas menyatakan bahwa orang mengharapkan / mentolerir suara terjadi sedikit setelah penglihatan (karena dalam kehidupan nyata suara tertinggal penglihatan sekitar 1 ms per kaki jarak), tetapi jangan mengaitkan kejadian dengan benar jika acara video terjadi setelah suara.
Peteris
Anda benar, saya benar-benar salah paham. Terima kasih. (Saya diedit)
Heckel
1
Saya dapat memberi tahu Anda dari pengalaman pribadi bahwa ini bahkan bervariasi di antara telinga pada orang yang sama. Saya memiliki kondisi vestibular langka yang sebenarnya menyebabkan otak saya untuk memproses stimulasi pendengaran di telinga kiri saya tertunda vs telinga kanan. Pada hari yang buruk ini menyebabkan pusing, tetapi sebagian besar waktu itu dapat ditoleransi. Jadi ya, ini sangat subjektif.
Andon M. Coleman
Di mana Anda mendapatkan 150 ms? Sumber Anda jelas rata-rata sekitar 45 ms.
Miles Rout
Wikipedia mengatakan 45ms, tetapi itu belum tentu sumber yang paling dapat diandalkan. Sumber kedua mengatakan 185,19 ms dan 125ms ketiga sampai menjadi terlihat. Bisakah Anda mengutip sumbernya untuk membantu saya memahami di mana saya salah?
Heckel
9

Itu tergantung dari acara

Merasa bahwa, katakanlah, ledakan yang Anda lihat dan dengar adalah peristiwa tunggal akan memiliki toleransi yang dijelaskan dalam jawaban lain - tidak lebih dari ~ 50ms; beberapa orang mungkin lebih sensitif (misalnya musisi), jadi saya sarankan untuk membidik 30ms atau tidak lebih dari 2 frame pada 60fps.

Saya percaya bahwa jarak yang dirasakan harus memengaruhi toleransi tersebut. Orang berharap suara jauh menjadi sedikit tertunda, karena dalam kehidupan nyata suara tertinggal pandangan sekitar 1 ms per setiap kaki jarak. Jadi ledakan pada 'peta' permainan RTS yang diperbesar mungkin memiliki toleransi yang lebih besar untuk lag suara daripada pemain yang menembakkan senjatanya sendiri dalam FPS.

Kasus-kasus khusus, seperti memiliki rasa yang tepat untuk permainan musik / ritme mungkin memerlukan toleransi yang lebih ketat, 15-20 ms atau bahkan lebih rendah - misalnya, jika pemain mendengar kedua "aksi input" seperti bernyanyi ke dalam mikrofon atau memukul-mukul instrumen plastik, dan juga suara yang dihasilkan oleh sistem Anda untuk acara yang sama, maka jeda 50 ms akan menyebabkan suara "asli" dan "dimainkan" bercampur dengan aneh.

Selain itu, ingatlah jeda waktu antara mulai file audio dan "event" di dalam file audio itu - dalam banyak klip audio, "event" tidak akan berada di tepi, Anda mungkin memiliki suara petir menyerang di mana 'mogok' terjadi 200ms setelah awal, yang akan nyata bagi semua orang, dan hampir semua file suara, bahkan drum-hit, akan memiliki beberapa penundaan di sana.

Jangan mengukur rata-rata - lihat kasus terburuk

Penglihatan & pendengaran sangat terhubung dalam persepsi manusia, dan jika salah satu dari mereka tergagap relatif terhadap yang lain, maka itu akan dapat dipahami. Tidak apa-apa jika sebagian besar waktu sangat cepat tetapi kadang-kadang ada penundaan 0,2 detik saat sesuatu sedang dimuat - orang akan melihat situasi seperti itu. Inilah sebabnya mengapa audio sering tetap berjalan pada utas terpisah, terisolasi dari aktivitas lain dan hanya mendapatkan pemberitahuan cepat tentang klip apa yang dimuat sebelumnya harus diputar.

Peter adalah
sumber
5

Setiap situasi di mana seorang pemain menyebabkan suara (permainan musik, senjata di FPS) akan membutuhkan penundaan yang sangat rendah karena pemain telah mengirim impuls untuk mewujudkannya pada saat itu, sehingga ketika seorang musisi mendengar instrumen mereka tertunda, akan sangat sadar keterlambatan yang sangat kecil. Insinyur suara khawatir tentang penundaan rekaman di bawah 5 mSec yang merusak "alur"

The Journal of American Academy of Audiology menyatakan bahwa orang (bukan hanya musisi), ketika mendengarkan suara mereka sendiri ditunda, menyadari penundaan sesingkat 3mSec, dan penundaan lebih dari 10 mSec tidak dapat diterima 90% dari waktu.

Manusia menggunakan waktu tunda di antara telinga mereka untuk informasi arah, dan karenanya harus dapat memproses dan mengekstrak informasi dari keterlambatan di bawah 1mSec

The 185.19 ms dikutip di atas tidak relevan karena mengacu pada kesalahan suara terkemuka, dan bagaimanapun, dengan apa yang orang dapat diterima ketika secara pasif menonton film, tidak aktif terlibat dalam permainan.

SamB
sumber
4

Jawaban yang diterima di sini terutama membahas persepsi sinkronisasi audio dalam menonton video secara pasif. Dalam kasus ini, penonton tidak dapat dengan mudah menentukan kapan tepatnya audio diputar kecuali dengan memperhatikan tanda-tanda dalam video. Ini berarti mereka memiliki antisipasi suara yang terbatas.

Ada dua kasus penting dalam game di mana asumsi dengan antisipasi rendah ini tidak berlaku:

  1. Ketika pemain sendiri menyebabkan suara (seperti yang ditunjukkan SamB), maka sejak saat mereka membentuk niat untuk menekan tombol, mereka tahu persis kapan mereka berharap untuk mendengar suara.

  2. Ketika suara seharusnya mendarat pada ketukan periodik , seperti dalam permainan musik atau apapun dengan timer / counter yang berdetak, ritme ini memungkinkan pemain untuk mengantisipasi suara berikutnya dan memperhatikan jika waktu habis.

Dalam pembicaraan dari GDC 2013 ini, Mathieu Pavageau berpendapat bahwa para pemain dapat merasakan perbedaan dalam ketepatan sinkronisasi di atas sekitar 5 ms , apalagi memaafkan daripada contoh yang disarankan oleh sinkronisasi bibir. Lihatlah bagian "Contoh Persepsi Waktu" dan "Contoh Permainan Ubisoft" untuk mendengarnya sendiri. Anda dapat mendengar menu Origins Rayman tidak terdengar "lamban" per se ketika disinkronkan dalam 16 ms (bingkai video), tetapi ketika disinkronkan dalam 5 ms terdengar lebih baik & lebih ketat.

Pavageau mengadvokasi menggunakan panggilan balik audio tingkat rendah untuk mendapatkan ketepatan sub-bingkai seperti ini jika Anda ingin gameplay ritme yang terasa kencang dari varietas ini.

DMGregory
sumber
2

Untuk permainan yang mengharuskan seseorang bereaksi terhadap isyarat audio, setiap milidetik ketika suara tertunda akan menyebabkan respons orang tersebut juga tertunda. Seseorang yang hanya menonton film atau cut-scene mungkin tidak terlalu memperhatikan jika audio dan video tidak benar-benar sinkron, tetapi seringkali penting dan kadang-kadang kritis bahwa audio sinkron dengan apa yang diharapkan pemain lakukan .

supercat
sumber
-1

Secara teori, segala sesuatu di atas 50 ms dapat terlihat ketika dikaitkan dengan hubungannya dengan gambar, pada 25 ms Anda dapat mulai mendengar suara dan penundaan sebagai dua suara terpisah, jadi saya akan mengatakan saya akan sangat menyarankan Anda tetap di bawah 50 ms dan jika Anda bahkan dapat tetap pada sesuatu dari 5 ms hingga 15 ms itu akan sangat bagus.

Saya harap ini akan membantu Anda!

https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback

X-Raysounds
sumber
Jawaban ini tidak menambahkan saran baru yang belum ada dalam jawaban yang sudah ada, jadi itu berbahaya karena hanya berupa plug atau iklan untuk info kontak perusahaan Anda. StackExchange tidak dimaksudkan untuk mempromosikan layanan, jadi saya sarankan menghapus bagian itu (orang-orang masih dapat mencari Anda dengan nama pengguna Anda), dan menambahkan lebih detail tentang mengapa Anda akan merekomendasikan penentuan waktu tertentu di luar apa yang tercakup dalam jawaban yang ada.
DMGregory
Tidak ada jawaban yang kami lihat benar bagi kami, kami adalah tim insinyur suara dan akustik adalah hal pertama yang kami pelajari. beberapa jawaban mengatakan lebih dari 100 ms, di mana mengatakan -100s & + 85s bagaimana itu bahkan sebuah jawaban? -50ms atau + 50ms masih 50 ms perbedaan antara aksi & suara. kami hanya mencoba membantu jika memberi email kami tidak sopan, kami akan menghapusnya.
X-Raysounds
Lihat, misalnya, jawaban Peteris dari 3 tahun yang lalu, yang memberikan batas atas absolut yang sama 50 ms dan merekomendasikan lebih rendah seperti jawaban ini, atau referensi ke pembicaraan Mathieu Pavageau merekomendasikan 5ms sebagai target ideal. Itu tampaknya mencakup keseluruhan dari apa yang terkandung dalam jawaban ini, kecuali jika Anda ingin memperluas rekomendasi? Misalnya, jika ada perincian dari tautan Wikipedia yang Anda rasa relevan, merupakan praktik yang baik untuk setidaknya merangkumnya dalam teks jawaban (jika halaman yang tertaut berubah di masa mendatang).
DMGregory
Ah maaf tentang itu kami tidak membaca semua jawaban yang kami lewati beberapa saja lalu kami mengatakan apa yang kami ketahui dan menegakkannya dengan tautan wikipedia, kami masih pemula di forum, kami mencoba memberikan bantuan pada suara masalah terkait tetapi kami tidak menemukan banyak haha
X-Raysounds
Jangan khawatir. Melatih pengguna baru adalah salah satu alasan komentar ini ada. :) Anda akan mendapatkan jawaban StackExchange cukup cepat - itu hanya berarti menganggap mereka sebagai sumber referensi jangka panjang, daripada balasan forum.
DMGregory