Saya mencoba mengekstraksi fitur dari file suara dan mengklasifikasikan suara sebagai milik kategori tertentu (misalnya: kulit anjing, mesin kendaraan dll). Saya ingin kejelasan tentang hal-hal berikut:
1) Apakah ini bisa dilakukan? Ada program yang dapat mengenali ucapan, dan membedakan antara berbagai jenis kulit anjing. Tetapi apakah mungkin untuk memiliki program yang dapat menerima sampel suara dan hanya mengatakan jenis suara apa itu? (Asumsikan ada database yang berisi banyak sampel suara untuk merujuk). Sampel suara input dapat sedikit bising (input mikrofon).
2) Saya berasumsi bahwa langkah pertama adalah ekstraksi fitur audio. Artikel ini menyarankan untuk mengekstraksi MFCC dan mengumpankannya ke algoritma pembelajaran mesin. Apakah MFCC cukup? Apakah ada fitur lain yang umumnya digunakan untuk klasifikasi suara?
Terima kasih atas waktu Anda.
sumber
Audio Non-verbal (apalagi lingkungan) tampaknya menjadi adik lelaki dari mesin media pembelajaran utama seperti gambar, ucapan, teks.
Untuk menjawab pertanyaan Anda, mungkinkah melatih jaringan untuk mengidentifikasi suara yang diberikan? Ya itu! Tetapi sulit karena semua alasan yang sama pembelajaran mesin itu sulit.
Namun apa yang sebenarnya menahan Audio, dan mengapa saya menyebutnya saudara kecil untuk gambar dan ucapan, adalah karena kurangnya Audio dari dataset berlabel skala besar. Untuk Pidato ada TIMIT, untuk Gambar ada beberapa ImagenNet, CIFAR, Caltech, untuk Pemrosesan Teks dan Bahasa Alami ada banyak sekali literatur, dll.
Sepengetahuan saya, dua set data audio non-verbal manusia * terbesar adalah dataset UrbanSounds dan ESC-100, yang sangat kecil untuk pendekatan pembelajaran yang benar-benar mendalam. Ada beberapa hasil campuran yang dipublikasikan pada dataset ini menggunakan ConvNet 2-layer.
Fitur MFCC adalah representasi fitur dasar yang mapan dalam pengenalan suara dan analisis audio secara umum. Tetapi ada banyak representasi fitur audio lainnya! Makalah ini memberikan taksonomi jenis fitur audio yang bagus.
Pekerjaan paling menarik yang melakukan klasifikasi suara yang baru-baru ini saya lihat sedang dilakukan oleh beberapa orang di DeepMind, yang disebut WaveNet .
sumber
Berikut adalah solusi untuk klasifikasi suara untuk 10 kelas: menggonggong anjing, klakson mobil, bermain anak-anak dll. Ini didasarkan pada perpustakaan tensorflow menggunakan jaringan saraf. Fitur diekstraksi dengan mengonversi klip suara ke spektrogram
sumber
Ya, ini sangat bisa dilakukan. Meskipun NN sangat bagus dalam pelatihan klasifikasi semacam ini, mereka mungkin bahkan tidak perlu - dengan serangkaian fitur yang dipilih dengan baik, hanya algoritma pengelompokan klasik seperti model campuran Gaussian, atau analisis komponen utama, yang mungkin akan dilakukan juga . Perpustakaan modern dapat memperbaiki hal ini sekitar 95% dari waktu atau lebih.
sumber