Mengapa sebagian besar asisten pintar menawarkan sedikit, jika ada, penyesuaian kata bangun?

14

Mayoritas merek asisten pintar , seperti Amazon Echo dan Google Home, menawarkan sangat sedikit cara penyesuaian untuk kata bangun (frasa yang Anda gunakan untuk membangunkan perangkat sehingga mendengarkan Anda).

Misalnya, Alexa hanya menawarkan tiga pilihan dan Google Home hanya mendukung 'OK Google' . Banyak pengguna tampaknya tertarik pada gagasan kata bangun kustom, namun tidak ada merek utama yang menambahkan dukungan.

Apakah ada alasan teknis untuk membatasi kustomisasi kata bangun, atau hanya pilihan branding?

Saya telah membaca tentang motivasi Google untuk menggunakan 'OK Google' , yang menunjukkan ide branding mungkin benar, tetapi juga tampaknya pengenalan kata bangun tidak terlalu akurat , mungkin menunjukkan alasan teknis. Adakah yang bisa menjelaskan faktor mana yang menjadi alasan utama?

Aurora0001
sumber
2
Satu hal yang perlu diingat adalah bahwa pemrosesan untuk membangunkan seperti itu harus dilakukan dalam domain yang sangat berdaya rendah dan selalu aktif - sering kali ada perangkat keras khusus yang tersedia untuk tugas ini di beberapa SoC yang lebih besar (terutama yang digunakan di ponsel), dan saya berasumsi bahwa koefisien filter / parameter lain dengan hati-hati dihitung dan dimuat ke dalam perangkat keras itu. Saya lupa yang menjalankan SoC Echo, tapi saya membayangkan ada hadiah filter yang sama. Nama kelas algoritma keluar dari saya saat ini
Krunal Desai

Jawaban:

12

Ya ada beberapa alasan.

Posting blog ini menjelaskan tentang Echo dan kata bangun Alexa. Saya akan meringkas sedikit.

Pengenalan kata bangun dilakukan secara lokal dan real-time . Itu membatasi panjang kata wake karena keterbatasan pemrosesan yang jelas. Selain itu pengguna tidak ingin melantunkan puisi untuk mengaktifkan asisten cerdas. Jadi, itu harus pendek.

Itu harus bekerja dengan akurasi hampir 100% ketika dipanggil dan juga tidak dikenali dengan kepastian itu ketika tidak dipanggil. Itu membuat masalah dan juga membuat panjang minimum untuk kata-kata bangun. Pilihan Amazon untuk memungkinkan Echo cukup mengejutkan karena itu hanya dua suku kata .

Jika kita melihat pada tersangka yang biasa, kita memiliki Alexa (3 suku kata), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4), dan Hey Siri (3). Semua raksasa industri hampir sepakat bahwa tiga menjadi suku kata pilihan yang baik.

Anehnya kata bangun yang paling dicari "komputer" juga memiliki tiga suku kata dan akan cocok dengan persyaratan itu dengan mudah. Itu juga bukan merek dagang.

Seperti yang dikatakan oleh blog - dan alasannya - kami benar-benar ingin menghindari hal-hal positif yang salah. Mari kita lihat bagaimana membentuk kata-kata Computer, Siri, Cortana dan Alexa. Ini adalah korpus buku Google dari 2008.

Komputer Ngram mengalahkan alexa dan siri

Tepatnya, Siri dan Alexa sebenarnya datar terhadap komputer dan Cortana memberikan kesalahan. Tidak ditemukan. Masuk akal karena corpus adalah dari 2008. Untuk memberi kita lebih banyak perspektif mengapa komputer adalah kata bangun mengerikan grafik lain.

ngram komputer versus kata lain

Ngram ini menunjukkan dua nama bayi AS paling populer tahun 2016 (untuk mata uang), serta Tom dan Dave juga datar terhadap komputer . Ratu, bola basket dan polisi berhasil mendaftar dengan benar. Bagaimanapun ini memberi kita ide mengapa Komputer, Earl Grey, Hot belum diizinkan sejauh ini. Orang terlalu sering menggunakan kata komputer .

Satu hal lagi tentang false positive. Alexa berima dengan hampir tidak ada yang akan mengatakan.

19 hal yang berima dengan alexa

Komputer berima dengan 74 hal.

Helmar
sumber
1
... dan ini menjelaskan mengapa Scotty tidak bisa membangunkan komputer .
Ghanima
2
"Aku akan bercinta dengan burung ... Tidak bukan kamu, Alexa!"
David mengatakan Reinstate Monica
1
"OK Google" adalah empat suku kata ("oh kay goo gull"), bukan tiga, dan lebih banyak dari banyak fonem itu.
Monty Harder
1
Alexa adalah nama depan yang menakutkan ... Saya pribadi kenal 2 orang dengan nama itu, salah satunya adalah sepupu. Echo digunakan seperti dalam bahasa saya, Dan saya sering mengatakan "ada gema" ketika ada gema di telepon atau sesuatu. Dan amazon adalah nama suku sungai / tua yang sering dikatakan seorang pria dalam permainan peran seperti saya. Mereka benar-benar mengacaukannya.
Olivier Grégoire
2
Saya tidak yakin saya membeli penjelasan mengapa kata "komputer" tidak berfungsi. Kata itu sendiri bukan satu-satunya hal yang diakui. Menjadi kata pertama dari ucapan dan diikuti oleh jeda juga merupakan informasi penting yang mengidentifikasi kata perintah.
Kevin Krumwiede
2

Apakah ada alasan teknis untuk membatasi kustomisasi kata bangun

Ketika asisten perangkat tidak digunakan, prosesor aplikasi (saya pikir ARM untuk Alexa dan Google Home) ditangguhkan dan dibawa ke kondisi daya serendah mungkin. Deteksi kata bangun dibiarkan menjadi DSP yang sangat hemat daya yang mendengarkan derau / suara sekitar dan menjalankan algoritme untuk memutuskan apakah ada kecocokan dengan kata bangun. Jika menemukan kecocokan dengan kepercayaan diri yang baik, DSP membangun inti ARM untuk melanjutkan dengan sisa pemrosesan.

Sekarang karena tujuannya adalah untuk menjadi hemat daya, DSP yang dimaksud menjalankan algoritme serta menyimpan pola templat pada memori on-chip daripada RAM on-board utama. Ini memungkinkan sistem untuk bahkan mengambil DDR RAM ke kondisi daya terendah.

Karena DSP memiliki sejumlah hal utama yang harus dilakukan dan memori on-chip yang sangat sedikit, kata-kata bangun Asisten terbatas pada beberapa yang terpilih yang dapat dicocokkan dengan algoritma dengan tingkat kepercayaan yang tinggi.

menangis
sumber