Teknik pemrosesan sinyal, Mel frekuensi Cepstrum , sering digunakan untuk mengekstraksi informasi dari karya musik untuk digunakan dalam tugas pembelajaran mesin. Metode ini memberikan spektrum daya jangka pendek, dan koefisien digunakan sebagai input.
Dalam mendesain sistem pengambilan musik, koefisien seperti itu dianggap sebagai karakteristik dari sebuah karya (jelas tidak harus unik, tetapi membedakan). Adakah karakteristik yang lebih cocok untuk pembelajaran dengan jaringan? Akankah karakteristik yang bervariasi waktu seperti perkembangan bass dari lagu yang digunakan dalam sesuatu seperti jaringan Elman bekerja lebih efektif?
Karakteristik apa yang akan membentuk set yang cukup luas di mana klasifikasi dapat terjadi?
Jawaban:
Kami melakukan sedikit pekerjaan pada satu titik. Serangkaian fitur yang kami ekstrak diberikan dalam makalah lokakarya NIPS ini . Saya harus mengakui bahwa kami tidak dapat meniru hasil dari beberapa penulis lain di lapangan, meskipun ada beberapa keraguan tentang dataset yang digunakan dalam ini (perhatikan bahwa dataset yang digunakan oleh penulis dalam bidang ini cenderung dipilih sendiri dan tidak dirilis). kepada publik, untuk alasan hak cipta, meskipun ini tidak selalu terjadi). Pada dasarnya mereka semua adalah fitur spektral jangka pendekdengan koefisien Autoregresi dilemparkan juga. Kami melihat klasifikasi genre, yang kami tahu dapat dilakukan oleh manusia (meskipun tidak dengan akurasi yang luar biasa, dan tidak dengan persetujuan yang konsisten ....) dalam rentang waktu yang sangat singkat (<1s), yang memvalidasi penggunaan fitur jangka pendek. . Jika Anda tertarik untuk melakukan hal-hal yang lebih rumit daripada klasifikasi genre / artis / album / produser yang khas maka Anda mungkin memerlukan lebih banyak fitur jangka panjang, jika tidak, fitur spektral jangka pendek ini cenderung berkinerja terbaik.
sumber