Apakah MFCC adalah metode optimal untuk merepresentasikan musik ke sistem pengambilan?

10

Teknik pemrosesan sinyal, Mel frekuensi Cepstrum , sering digunakan untuk mengekstraksi informasi dari karya musik untuk digunakan dalam tugas pembelajaran mesin. Metode ini memberikan spektrum daya jangka pendek, dan koefisien digunakan sebagai input.

Dalam mendesain sistem pengambilan musik, koefisien seperti itu dianggap sebagai karakteristik dari sebuah karya (jelas tidak harus unik, tetapi membedakan). Adakah karakteristik yang lebih cocok untuk pembelajaran dengan jaringan? Akankah karakteristik yang bervariasi waktu seperti perkembangan bass dari lagu yang digunakan dalam sesuatu seperti jaringan Elman bekerja lebih efektif?

Karakteristik apa yang akan membentuk set yang cukup luas di mana klasifikasi dapat terjadi?

jonsca
sumber
Apakah Anda sedang mengerjakan pengambilan, di mana Anda mencari kualitas unik dari klip audio tertentu? atau Anda ingin mengidentifikasi musik yang serupa?
Andrew Rosenberg
@AndrewRosenberg Lebih lanjut mengidentifikasi musik yang serupa.
jonsca
(Bertahun-tahun kemudian), ada banyak cara untuk bermain-main dengan MFCC; Kinunnen et al., Verifikasi Frekuensi Warping dan Pembicara Kuat: Perbandingan Representasi Mel-Scale Alternatif 2013, 5p, gunakan 60 koefisien. Dan, optimalkan apa? Pada basis data apa yang tidak terbuka? Jadi saya akan mengatakan (non-ahli) bahwa pertanyaannya terlalu luas untuk dijawab.
denis
@denis Terima kasih atas informasinya. Ini datang dari Machine Learning Beta yang bernasib buruk (pertama kali sekitar). Saya menghargai bahwa itu agak kabur.
jonsca

Jawaban:

8

Kami melakukan sedikit pekerjaan pada satu titik. Serangkaian fitur yang kami ekstrak diberikan dalam makalah lokakarya NIPS ini . Saya harus mengakui bahwa kami tidak dapat meniru hasil dari beberapa penulis lain di lapangan, meskipun ada beberapa keraguan tentang dataset yang digunakan dalam ini (perhatikan bahwa dataset yang digunakan oleh penulis dalam bidang ini cenderung dipilih sendiri dan tidak dirilis). kepada publik, untuk alasan hak cipta, meskipun ini tidak selalu terjadi). Pada dasarnya mereka semua adalah fitur spektral jangka pendekdengan koefisien Autoregresi dilemparkan juga. Kami melihat klasifikasi genre, yang kami tahu dapat dilakukan oleh manusia (meskipun tidak dengan akurasi yang luar biasa, dan tidak dengan persetujuan yang konsisten ....) dalam rentang waktu yang sangat singkat (<1s), yang memvalidasi penggunaan fitur jangka pendek. . Jika Anda tertarik untuk melakukan hal-hal yang lebih rumit daripada klasifikasi genre / artis / album / produser yang khas maka Anda mungkin memerlukan lebih banyak fitur jangka panjang, jika tidak, fitur spektral jangka pendek ini cenderung berkinerja terbaik.

tdc
sumber
Apa tujuan melempar koefisien AR?
jonsca
1
@jonsca Karena kami menggunakan metode peningkatan, yang bekerja dengan menggabungkan banyak pelajar "lemah", kami memutuskan untuk menggunakan fitur apa pun yang dapat dengan mudah dihitung yang dapat memberikan beberapa manfaat. Semua yang dibutuhkan oleh seorang pelajar yang lemah agar bermanfaat adalah bahwa ia dapat mengklasifikasikan pada tingkat yang lebih tinggi daripada tingkat peluang. Koefisien AR setara dengan kompresi amplop spektral, yang memberikan beberapa gagasan tentang kompleksitas informasi jangka pendek dari musik di dalam jendela itu, meskipun hanya sangat longgar.
tdc
@tdc, "dataset cenderung tidak dirilis ke publik ...": apakah Anda tahu ada dataset pidato online gratis, dengan label fonem?
denis
@denis satu-satunya yang saya tahu adalah yang ini: orange.biolab.si/datasets/phoneme.htm
tdc
@tdc, terima kasih, tapi itu hanya 11 vokal dari Elemen pembelajaran stat, ~ 1000 x 11 fitur (LPC kuno).
denis