Bagaimana cara menghadapi fundamental rendah ketika menggunakan AMDF untuk ekstraksi pitch?

Inilah yang kami sebut dalam biz deteksi lapangan, " masalah oktaf ".

Pertama-tama, saya akan mengubah AMDF menjadi ASDF. Dan saya tidak akan mengurangi ukuran jendela karena lag bertambah. (Juga, saya mengubah notasi ke apa yang saya anggap lebih konvensional. " " adalah sinyal waktu diskrit.) $x[n]$

Fungsi Perbedaan Kuadrat Rata-rata (ASDF) dari di lingkungan sampel adalah: $x[n]$ $x[n_0]$

Q_{x} [k, n_{0}] ≜ \frac{1}{N} \sum_{n = 0}^{N - 1} {(x [n + n_{0} - ⌊ \frac{N + k}{2} ⌋] - x [n + n_{0} - ⌊ \frac{N + k}{2} ⌋ + k])}^{2}

$Q_x[k, n_0] \triangleq \frac{1}{N} \sum\limits_{n=0}^{N-1} \left(x[n+n_0-\left\lfloor \tfrac{N+k}{2}\right\rfloor] \ - \ x[n+n_0-\left\lfloor \tfrac{N+k}{2}\right\rfloor + k] \right)^2$

$\left\lfloor \cdot \right\rfloor$ adalah floor()fungsi dan, jika adalah itupun . $k$ $\left\lfloor \frac{k}{2}\right\rfloor = \left\lfloor \frac{k+1}{2}\right\rfloor = \frac{k}{2}$

Sekarang, memperluas alun-alun dan mempertimbangkan apa yang penjumlahan terlihat seperti sebagai (tidak adalah akan tak terhingga, tetapi untuk memberikan ide jika besar). ASDF secara langsung terkait dengan autokorelasi. Ini pada dasarnya autokorelasi terbalik. Langkah-langkah ini akan saya serahkan kepada Anda. lihat jawaban ini. $N \to \infty$ $N$ $N$

Jadi sekarang pertimbangkan "autokorelasi" yang terbatas ini (di lingkungan sampel ) yang didefinisikan dari ASDF: $x[n_0]$

R_{x} [k, n_{0}] = R_{x} [0, n_{0}] - \frac{1}{2} Q_{x} [k, n_{0}]

$R_x[k,n_0] = R_x[0,n_0] - \tfrac12 Q_x[k, n_0]$

dimana

R_{x} [0, n_{0}] ≜ \frac{1}{N} \sum_{n = 0}^{N - 1} (x [n + n_{0} - ⌊ \frac{N}{2} ⌋])^{2}

$R_x[0, n_0] \triangleq \frac{1}{N} \sum\limits_{n=0}^{N-1} \Big(x[n+n_0-\left\lfloor \tfrac{N}{2}\right\rfloor]\Big)^2$

Karena dan untuk semua lag , itu berarti untuk semua lag . $Q_x[0, n_0] = 0$ $Q_x[k, n_0] \ge 0$ $k$ $R_x[k, n_0] \le R_x[0, n_0]$ $k$

Misalkan sebentar bahwa periodik dengan periode (dan kebetulan bilangan bulat), maka $x[n]$ $P$ $P$

x [n + P] = x [n] \forall n

$x[n+P] = x[n] \quad \forall n$

dan dan untuk jumlah periode bilangan bulat mana pun ( adalah bilangan bulat). Jadi Anda mendapatkan puncak pada dan pada sama dengan kelipatan jika periodik. Jika adalah tidak sempurna periodik, apa yang kita harapkan adalah puncak terbesar di , puncak lain (tapi sedikit lebih kecil) di (periode kita cari) dan puncak semakin kecil untuk kelipatan lebih besar dari . $Q_x[mP, n_0] = 0$ $R_x[mP, n_0] = R_x[0, n_0] \ge R_x[k, n_0]$ $m$ $k=0$ $k$ $P$ $x[n]$ $x[n]$ $k=0$ $k=P$ $P$

Jadi masalah oktaf muncul karena beberapa alasan. Pertama-tama, tidak harus berupa bilangan bulat. Itu adalah masalah interpolasi, bukan masalah besar. $P$

Alasan kedua dan masalah yang lebih sulit adalah karena subharmonik . Pertimbangkan bahwa Anda mendengarkan nada periodik yang bagus pada A-440 Hz dan kedengarannya seperti A yang 9 semiton di atas tengah C. Sekarang anggaplah seseorang menambahkan nada yang sangat kecil-amplitudo (seperti turun 60 dB) A -220? Seperti apa suara itu dan secara matematis apa periode "benar"?

Memilih puncak "kanan" untuk periode tersebut.

Katakanlah Anda menjalankan catatan Anda melalui filter pemblokiran DC, sehingga rata-rata adalah nol. Ternyata yang menyebabkan rerata autokorelasi untuk setiap juga menjadi nol (atau dekat dengannya jika besar). Itu berarti harus menjumlahkan (lebih dari ) menjadi nol yang berarti ada banyak area di atas nol seperti di bawah ini. $x[n]$ $R_x[k, n_0]$ $n_0$ $N$ $R_x[k, n_0]$ $k$

Oke, jadi mewakili kekuatan di sekitar dan harus non-negatif. tidak pernah melebihi tetapi bisa menjadi sebesar ketika periodik. jika . Jadi jika adalah periodik dengan periode dan Anda memiliki banyak puncak yang dipisahkan oleh dan Anda memiliki gagasan tentang seberapa tinggi puncak itu seharusnya. Dan jika komponen DC dari adalah nol, itu berarti di antara puncak, itu harus memiliki nilai negatif. $R_x[0, n_0]$ $x[n]$ $n=n_0$ $R_x[k, n_0]$ $R_x[0, n_0]$ $x[n]$ $R_x[P, n_0] = R_x[0, n_0]$ $x[n+P]=x[n]$ $x[n]$ $P$ $P$ $R_x[k, n_0]$

Jika adalah "quasi-periodic", satu siklus akan terlihat sangat mirip dengan siklus yang berdekatan, tetapi tidak jauh seperti siklus lebih jauh ke bawah sinyal pada waktunya. Itu berarti puncak pertama akan lebih tinggi dari yang kedua di atau ketiga . Seseorang dapat menggunakan aturan untuk selalu memilih puncak tertinggi dan mengharapkan puncak tertinggi untuk selalu menjadi yang pertama. Tetapi, karena subharmonik yang tidak terdengar, terkadang itu tidak terjadi. kadang-kadang puncak kedua atau mungkin ketiga adalah oh-begitu-sedikit lebih tinggi. Juga, karena periode kemungkinan bukan jumlah integer sampel tetapi dalam $x[n]$ $x[n]$ $x[n]$ $R_x[P, n_0]$ $R_x[2P, n_0]$ $R_x[3P, n_0]$ $P$ $k$ $R_x[k, n_0]$ selalu merupakan bilangan bulat, sehingga puncak sebenarnya kemungkinan berada di antara nilai integer . Bahkan jika Anda interpolasi di mana puncak halus (yang saya sarankan dan interpolasi kuadrat cukup baik), dan seberapa tinggi itu sebenarnya antara bilangan bulat , interpolasi Anda juga dapat membuat puncak sedikit lebih tinggi atau sedikit lebih rendah daripada yang sebenarnya. Jadi memilih puncak yang benar-benar tertinggi dapat mengakibatkan memilih yang kedua secara palsu dari puncak pertama (atau sebaliknya) ketika Anda benar-benar menginginkan yang lain. $k$ $k$

Jadi, entah bagaimana, Anda harus menghambat puncak pada peningkatan sehingga puncak pertama memiliki sedikit keunggulan di atas yang kedua, dan yang kedua di atas yang keempat (oktaf berikutnya turun), dll. Bagaimana Anda melakukannya? $k$

Anda melakukannya dengan mengalikan dengan fungsi yang menurun dari sehingga puncak pada berkurang oleh beberapa faktor, relatif terhadap puncak identik di . Ternyata fungsi daya (bukan eksponensial) melakukan itu. jadi hitung $R_x[k, n_0]$ $k$ $k=2P$ $k=P$

k^{- α} R_{x} [k, n_{0}]

$k^{-\alpha} \ R_x[k, n_0]$

Jadi, jika sempurna periodik dengan periode , dan mengabaikan masalah interpolasi untuk non-integer , maka $x[n]$ $P$ $P$

R_{x} [2 P, n_{0}] = R_{x} [P, n_{0}]

$R_x[2P, n_0] = R_x[P, n_0]$

tapi

\begin{aligned} (2 P)^{- α} R_{x} [2 P, n_{0}] & = \\ (2 P)^{- α} R_{x} [P, n_{0}] & < P^{- α} R_{x} [P, n_{0}] \end{aligned}

$\begin{align} (2P)^{-\alpha} R_x[2P, n_0] & = \\ (2P)^{-\alpha} R_x[P, n_0] & < P^{-\alpha} R_x[P, n_0] \\ \end{align}$

Faktor di mana puncak untuk nada satu oktaf lebih rendah berkurang adalah rasio

\frac{(2 P)^{- α} R_{x} [2 P, n_{0}]}{P^{- α} R_{x} [P, n_{0}]} = \frac{(2 P)^{- α}}{P^{- α}} = 2^{- α}

$\frac{(2P)^{-\alpha} R_x[2P, n_0]}{P^{-\alpha} R_x[P, n_0]} = \frac{(2P)^{-\alpha}}{P^{-\alpha}} = 2^{-\alpha}$

Jadi, jika Anda ingin memberikan puncak pertama Anda dorongan 1% dari puncak kedua, yang berarti Anda tidak akan memilih nada untuk menjadi nada sub-harmonik, kecuali autokorelasi pitch sub-harmonik setidaknya 1% lebih dari yang pertama puncak, Anda akan menyelesaikan untuk dari $\alpha$

2^{- α} = 0,99

$2^{-\alpha} = 0.99$

Itu adalah cara yang konsisten untuk menimbang atau mengurangi penekanan atau menghambat puncak yang sesuai dengan nada subharmonik satu oktaf di bawah ini.

Masih memberi Anda masalah ambang batas. Anda harus memilih baik. Tetapi ini adalah cara yang konsisten menekankan puncak pertama di atas yang kedua, yang merupakan satu oktaf lebih rendah, tetapi tidak terlalu banyak sehingga jika notnya benar - benar satu oktaf lebih rendah, tetapi energi di semua harmonik genap itu kuat, dibandingkan dengan yang aneh harmonik, ini masih akan meninggalkan kemungkinan puncak kedua dipilih. $\alpha$

robert bristow-johnson
sumber

Untuk menjawab pertanyaan terakhir Anda: jika Anda menambahkan amplitudo 220 Hz, maka nada akan menjadi 220 Hz di mana 440 Hz adalah harmonik pertama setelah fundamental (secara matematis berbicara). Kasus saya serupa tetapi ada juga harmonik yang lebih tinggi, sehingga fundamental yang hilang bukan masalah dari sudut pandang persepsi. Saya tidak mengerti bagaimana mengganti AMDF dengan ASDF dapat menyelesaikan masalah oktaf

firion

tetapi bagian lain dari pertanyaannya adalah * "seperti apa bunyinya"? jawab itu dan kemudian mari kita lihat apa yang Anda ingin detektor pitch Anda lakukan.

robert bristow-johnson

cobalah menghitung dan memplot untuk nada yang sama yang telah Anda lakukan untuk AMDF. harus terlihat seperti AMDF terbalik.

R_{x} [k, n_{0}]

$R_x[k,n_0]$

robert bristow-johnson

Jika Anda tidak memiliki harmonik yang lebih tinggi tetapi hanya yang 440 Hz, dan nada 220 Hz cukup rendah, Anda akan mendengar nada 440 Hz. Di atas level tertentu (saya tidak tahu yang mana), Anda juga akan mendengar nada 220 Hz dan nada 220 Hz.

firion

ada alasan mengapa saya katakan -60 dB. sekarang apa yang Anda ingin detektor pitch Anda katakan, bahwa itu adalah 220 Hz atau 440 Hz atau sesuatu yang lain?

robert bristow-johnson

Bagaimana cara menghadapi fundamental rendah ketika menggunakan AMDF untuk ekstraksi pitch?

Jawaban: