Saya telah merekam pelafalan 2 detik dari suara vokal. 0,12 detik pertama dari sinyal ditunjukkan di bawah ini.
Sekarang, saya telah membangun model orde 8 otomatis-regresif (AR) untuk mengompres sinyal ini. (Sebenarnya, saya hanya memodelkan 160 sampel atau 0,02 detik pada suatu waktu.) ar
Fungsi dalam Matlab's System Identification Toolbox dapat memperkirakan parameter untuk kesesuaian spektrum "optimal".
Masalah saya adalah memilih input stokastik ke model filter. Saya kira ada sesuatu yang lebih baik daripada white noise. Periodisitas (14 periode per 0,02 detik) membuat saya berpikir bahwa kereta impuls dengan periode yang sama akan sesuai.
Jika demikian, bagaimana saya memilih amplitudo, dan bagaimana saya menemukan periodisitas? Estimasi ACF dan PSD cukup berisik. Apakah saya bahkan berada di jalur yang benar?
Jawaban:
Estimator pitch biasanya digunakan untuk menemukan periodisitas vokal. Estimator pitch umum meliputi analisis cepstrum / cepstral, spektrum produk harmonik, dan algoritma komposit, seperti YAAPT .
sumber
Saya pikir taruhan terbaik Anda adalah detektor pitch "YIN", yang dijelaskan dalam makalah ini: http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf . Ini cukup sederhana, dan berkinerja sangat baik. Mereka mempresentasikannya dalam langkah-langkah, atau perbaikan pada ide sebelumnya, dan bahkan hanya menerapkan beberapa langkah pertama sudah cukup.
Sebagian besar detektor nada yang sebenarnya digunakan terkait dengan autokorelasi. Masalah terbesar dengan sebagian besar algoritma deteksi nada adalah kesalahan oktaf - baik mendeteksi nada rendah atau tinggi. Sangat menarik bahwa Anda mengatakan fungsi autokorelasi Anda berisik. Anda akan melihat banyak kebisingan, dengan puncak pada kelipatan bilangan bulat dan pembagi frekuensi dasar. Mudah-mudahan lag lag yang sesuai dengan frekuensi fundamental memiliki nilai terbesar, tetapi sering kali akan berada pada sub-oktaf (karena sinyal tidak periodik sempurna), atau pada oktaf lebih tinggi (karena forman yang kuat menyebabkan salah satu yang lebih tinggi harmonik menjadi sangat keras). Saya akan merekomendasikan ukuran jendela yang kira-kira sebesar dua dari periode nada terendah Anda.
Sinyal itu juga kelihatannya memiliki komponen frekuensi yang sangat rendah - ucapan biasanya tidak naik turun seperti itu. Saya mungkin merekomendasikan untuk memprosesnya dengan, katakanlah, filter high-pass 24 dB / oktober sekitar 50 Hz.
sumber