Input apa yang digunakan untuk model AR dari suara vokal?

8

Saya telah merekam pelafalan 2 detik dari suara vokal. 0,12 detik pertama dari sinyal ditunjukkan di bawah ini.

Sekarang, saya telah membangun model orde 8 otomatis-regresif (AR) untuk mengompres sinyal ini. (Sebenarnya, saya hanya memodelkan 160 sampel atau 0,02 detik pada suatu waktu.) arFungsi dalam Matlab's System Identification Toolbox dapat memperkirakan parameter untuk kesesuaian spektrum "optimal".

Masalah saya adalah memilih input stokastik ke model filter. Saya kira ada sesuatu yang lebih baik daripada white noise. Periodisitas (14 periode per 0,02 detik) membuat saya berpikir bahwa kereta impuls dengan periode yang sama akan sesuai.

Jika demikian, bagaimana saya memilih amplitudo, dan bagaimana saya menemukan periodisitas? Estimasi ACF dan PSD cukup berisik. Apakah saya bahkan berada di jalur yang benar?

masukkan deskripsi gambar di sini

digital-communications autoregressive-model speech Andreas
sumber

1

FYI, saya akhirnya memperbesar kereta impuls sehingga energi sinyalnya (diukur dalam domain waktu) adalah sama dengan sinyal yang direkam.

Andreas

5

Estimator pitch biasanya digunakan untuk menemukan periodisitas vokal. Estimator pitch umum meliputi analisis cepstrum / cepstral, spektrum produk harmonik, dan algoritma komposit, seperti YAAPT .

hotpaw2
sumber

Terima kasih. Bagaimana saya harus memilih amplitudo impuls?

Andreas

4

Saya pikir taruhan terbaik Anda adalah detektor pitch "YIN", yang dijelaskan dalam makalah ini: http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf . Ini cukup sederhana, dan berkinerja sangat baik. Mereka mempresentasikannya dalam langkah-langkah, atau perbaikan pada ide sebelumnya, dan bahkan hanya menerapkan beberapa langkah pertama sudah cukup.

Sebagian besar detektor nada yang sebenarnya digunakan terkait dengan autokorelasi. Masalah terbesar dengan sebagian besar algoritma deteksi nada adalah kesalahan oktaf - baik mendeteksi nada rendah atau tinggi. Sangat menarik bahwa Anda mengatakan fungsi autokorelasi Anda berisik. Anda akan melihat banyak kebisingan, dengan puncak pada kelipatan bilangan bulat dan pembagi frekuensi dasar. Mudah-mudahan lag lag yang sesuai dengan frekuensi fundamental memiliki nilai terbesar, tetapi sering kali akan berada pada sub-oktaf (karena sinyal tidak periodik sempurna), atau pada oktaf lebih tinggi (karena forman yang kuat menyebabkan salah satu yang lebih tinggi harmonik menjadi sangat keras). Saya akan merekomendasikan ukuran jendela yang kira-kira sebesar dua dari periode nada terendah Anda.

Sinyal itu juga kelihatannya memiliki komponen frekuensi yang sangat rendah - ucapan biasanya tidak naik turun seperti itu. Saya mungkin merekomendasikan untuk memprosesnya dengan, katakanlah, filter high-pass 24 dB / oktober sekitar 50 Hz.

schnarf
sumber

Terima kasih untuk kalian berdua, aku akan memeriksa detektor pitch itu. Ketika periode diperkirakan, bagaimana saya bisa menemukan amplitudo mana yang sesuai untuk kereta impuls?

Andreas

Input apa yang digunakan untuk model AR dari suara vokal?

Jawaban: