Mengapa Manusia bisa memilih audio dalam kerumunan? Apa yang diperlukan robot untuk melakukan hal yang sama?

Saya berada di sebuah konferensi Robotika sebelumnya hari ini dan salah satu pembicara menyebutkan robot tidak dapat berfungsi dengan baik di tengah kerumunan karena mereka tidak dapat memilih audio seperti yang dapat dilakukan seseorang.

Mengapa orang bisa memilih audio dengan sangat baik? Dan apa yang diperlukan robot untuk melakukan hal yang sama?

Saya mengetahui Active Noise Reduction (ANR) seperti pada headset Bose Aviation, tapi bukan itu yang saya bicarakan. Saya berpikir tentang kemampuan untuk mengambil semuanya tetapi hanya memproses apa yang Anda rasa penting.

artificial-intelligence Spongebob
sumber

Jawaban:

Apa yang dikatakan pembicara di konferensi itu tidak akurat. Mungkin itu berarti " robot kami tidak dapat memilih audio seperti yang dapat dilakukan orang", tetapi pernyataan "[robot] tidak dapat memilih audio seperti yang dapat dilakukan seseorang" adalah salah.

Berikut adalah sebagian daftar sistem yang dapat menentukan sumber sinyal audio, dan melacaknya:

Telepon konferensi (dan banyak telepon seluler), dengan teknik yang dijelaskan dalam makalah yang satu ini
Peluru tembak
Robot bawah air dengan deret mikrofon derek, misalnya AUV yang dijelaskan dalam makalah ini
Robot berbasis darat seluler

Istilah yang Anda cari adalah "array bertahap" mikrofon (lihat juga: Matlab toolbox array bertahap ). NASA menggunakan array bertahap untuk melokalisasi kebisingan yang berasal dari bilah kipas rotor yang berputar .

Ian
sumber

Sudah lama sejak saya mengambil kelas audio itu tetapi saya juga percaya setiap suara yang diberikan harus memiliki karakteristik yang dapat dianggap unik dalam kerumunan.

Erik Reppen

Untuk menambah daftar Anda, sensor Kinect untuk Windows memiliki larik mikrofon yang dapat digunakan untuk menentukan darimana audio berasal.

WildCrustacean

Itu luar biasa, apakah Anda memiliki tautan tentang cara mengakses informasi itu dari Kinect?

Ian

+1. Tetapi bisakah robot membuat keputusan real-time tentang apa yang penting, dan menyaringnya? Menurut saya daftar Anda hanya berisi bunyi yang dapat dipelajari robot sebelumnya.

Adrian Keister

Pasti. Teknik ini disebut beamforming . Dengan asumsi Anda memiliki beberapa kriteria yang dapat difilter untuk apa yang dianggap sebagai "penting", setelah Anda menerima sinyal itu, Anda akan melacak pergerakannya dari lokasi spasial itu.

Ian

Saya pikir setidaknya ada tiga hal yang terjadi:

Pemfilteran yang bergantung pada lokasi suara berasal. Pendengaran stereo kami dikombinasikan dengan atribut tertentu tentang bagaimana telinga kita dibangun membantu kita mengisolasi suara yang datang dari lokasi / arah tertentu.
Penyaringan yang tergantung pada frekuensi / amplitudo audio.
Redundansi pada audio memungkinkan kita merekonstruksi input. Jika banyak orang berbicara satu sama lain (atau umumnya di tengah kebisingan) kita hanya perlu menangkap sebagian kecil dari apa yang dikatakan (atau kadang-kadang bahkan mengamati secara visual) untuk mengetahui apa yang dikatakan.

Saya akan berpikir bahwa robot dapat mengungguli manusia di # 1 dan # 2. Dengan array mikrofon orang akan berpikir Anda bisa secara efektif fokus pada satu titik di ruang dan menghilangkan semua gangguan lainnya. Itu bisa dibuat lebih rumit dengan refleksi dan berbagai gangguan lainnya. # 3 mungkin adalah sesuatu yang sulit dilakukan oleh komputer.

Guy Sirton
sumber

Kata rahasia untuk malam ini adalah stereo hearing. Tanyakan pada manusia yang kehilangan kemampuan ini karena alasan apa pun. Jadi, sebuah program atau bahkan robot dengan 2 atau lebih mic akan memiliki kemampuan ini - jika programmer tahu bagaimana menangani input.

ott--