Ekstraksi fitur untuk klasifikasi suara

15

Saya mencoba mengekstraksi fitur dari file suara dan mengklasifikasikan suara sebagai milik kategori tertentu (misalnya: kulit anjing, mesin kendaraan dll). Saya ingin kejelasan tentang hal-hal berikut:

1) Apakah ini bisa dilakukan? Ada program yang dapat mengenali ucapan, dan membedakan antara berbagai jenis kulit anjing. Tetapi apakah mungkin untuk memiliki program yang dapat menerima sampel suara dan hanya mengatakan jenis suara apa itu? (Asumsikan ada database yang berisi banyak sampel suara untuk merujuk). Sampel suara input dapat sedikit bising (input mikrofon).

2) Saya berasumsi bahwa langkah pertama adalah ekstraksi fitur audio. Artikel ini menyarankan untuk mengekstraksi MFCC dan mengumpankannya ke algoritma pembelajaran mesin. Apakah MFCC cukup? Apakah ada fitur lain yang umumnya digunakan untuk klasifikasi suara?

Terima kasih atas waktu Anda.

Kevin Martin Jose
sumber

Jawaban:

15
  1. Dengan tembakan panjang itu bisa dilakukan - untuk apa? Kamu akan lihat. Tugas klasifikasi suara lingkungan ini tidak dipelajari dengan baik. Juga pilihan paradigma pembelajaran mesin sangat penting - pendekatan statistik atau mungkin klasifikasi biner? Anda bisa mulai dengan GMM, ANN dan SVM - saya memilih GMM dan ANN.
  2. Ya, sebagian besar orang menggunakan MFCC's karena mereka berkorelasi baik dengan apa yang sebenarnya didengar orang dan juga tidak ada yang datang dengan sesuatu yang lebih baik sejak itu. Anda mungkin juga ingin menambahkan fitur tambahan seperti deskriptor MPEG-7. Optimalisasi fitur yang tepat harus dilakukan karena kadang-kadang Anda tidak membutuhkan begitu banyak fitur, terutama ketika mereka tidak dapat dipisahkan. Untuk info lebih lanjut silakan lihat jawaban saya sebelumnya:

Ekstraksi fitur dari spektrum

Ekstraksi MFCC

Deteksi suara

jojek
sumber
Saya akan memperluas jawaban saya di malam hari.
jojek
masih menunggu jawaban yang diperluas ...
Nithin
Di malam hari ...
jojek
4

Audio Non-verbal (apalagi lingkungan) tampaknya menjadi adik lelaki dari mesin media pembelajaran utama seperti gambar, ucapan, teks.

Untuk menjawab pertanyaan Anda, mungkinkah melatih jaringan untuk mengidentifikasi suara yang diberikan? Ya itu! Tetapi sulit karena semua alasan yang sama pembelajaran mesin itu sulit.

Namun apa yang sebenarnya menahan Audio, dan mengapa saya menyebutnya saudara kecil untuk gambar dan ucapan, adalah karena kurangnya Audio dari dataset berlabel skala besar. Untuk Pidato ada TIMIT, untuk Gambar ada beberapa ImagenNet, CIFAR, Caltech, untuk Pemrosesan Teks dan Bahasa Alami ada banyak sekali literatur, dll.

Sepengetahuan saya, dua set data audio non-verbal manusia * terbesar adalah dataset UrbanSounds dan ESC-100, yang sangat kecil untuk pendekatan pembelajaran yang benar-benar mendalam. Ada beberapa hasil campuran yang dipublikasikan pada dataset ini menggunakan ConvNet 2-layer.

Fitur MFCC adalah representasi fitur dasar yang mapan dalam pengenalan suara dan analisis audio secara umum. Tetapi ada banyak representasi fitur audio lainnya! Makalah ini memberikan taksonomi jenis fitur audio yang bagus.

Pekerjaan paling menarik yang melakukan klasifikasi suara yang baru-baru ini saya lihat sedang dilakukan oleh beberapa orang di DeepMind, yang disebut WaveNet .

beeCwright
sumber
3

Berikut adalah solusi untuk klasifikasi suara untuk 10 kelas: menggonggong anjing, klakson mobil, bermain anak-anak dll. Ini didasarkan pada perpustakaan tensorflow menggunakan jaringan saraf. Fitur diekstraksi dengan mengonversi klip suara ke spektrogram

abggcv
sumber
3
menghubungkan saja tidak cukup sebagai jawaban.
Gilles
Ya, perluas apa yang dikatakan tautan.
Peter K.
2
Tapi terima kasih untuk tautannya.
Kevin Martin Jose
Sebenarnya saya juga mencoba untuk lebih memahami teknik yang digunakan dalam tutorial yang disediakan di tautan. Pengetahuan saya tentang sinyal suara sangat terbatas karena saya seorang penglihatan komputer dan pengolah gambar. Saya akan mencoba menguraikan lebih lanjut tentang jawabannya ketika saya memiliki pemahaman yang lebih baik.
abggcv
1

Ya, ini sangat bisa dilakukan. Meskipun NN sangat bagus dalam pelatihan klasifikasi semacam ini, mereka mungkin bahkan tidak perlu - dengan serangkaian fitur yang dipilih dengan baik, hanya algoritma pengelompokan klasik seperti model campuran Gaussian, atau analisis komponen utama, yang mungkin akan dilakukan juga . Perpustakaan modern dapat memperbaiki hal ini sekitar 95% dari waktu atau lebih.

Johnwbyrd
sumber