Bagaimana cara membagi audio panggilan telepon menjadi hening / tidak hening?

Masalah saya adalah bahwa saya tidak tahu energi dari kebisingan latar belakang, jadi saya tidak bisa hanya membatasi energi. Pemrosesan dilakukan secara real time, dan saya memiliki sekitar 500 msec untuk memutuskan. Idealnya, saya ingin konsonan yang tenang dianggap tidak diam.

audio speech-recognition Michael Litvin
sumber

Saya tidak memiliki informasi yang cukup untuk memberikan jawaban lengkap, tetapi masalah Anda disebut sebagai deteksi aktivitas suara . Tidak ada satu pun cara terbaik yang disepakati untuk melakukannya, dan jika Anda melihat Anda mungkin akan menemukan banyak pendekatan yang berbeda. Mungkin beberapa yang lain dapat menyempurnakannya sedikit lebih banyak.

Jason R

@Michael Litvin, ada kelas filter non-linear (digunakan dalam 'deteksi energi' dengan nama 'Teager-Kaiser'. Saya pikir itu adalah subset dari apa yang dikenal sebagai 'kernel voltera'. Maaf saya tidak dapat memberikan apapun lebih banyak informasi, tetapi jika Anda mencari-cari kata-kata itu, Anda mungkin menemukan apa yang Anda cari. Saya tahu bahwa metode Teager-Kaiser digunakan untuk 'ketika' suara paus mulai VS hanya suara latar belakang.

Spacey

Jawaban:

Ada banyak parameter yang dapat Anda lihat:

Energi keseluruhan
Spektrum jangka pendek: Pidato memiliki spektrum dan noise "mirip pink" yang cukup khas (yang terjadi selama bagian non-suara) cenderung putih jika didominasi secara elektrik atau "merah" (yaitu frekuensi rendah yang berat) jika latar akustik noise atau noise mikrofon
Statistik amplitudo. Sebagian besar sinyal noise memiliki distribusi Gaussian, ucapan lebih dekat ke distribusi Laplace

Saya pikir kombinasi ketiganya harus memberikan skema deteksi yang cukup kuat.

Hilmar
sumber