Apakah ada aplikasi yang ada untuk sampel suara seseorang dan menggunakannya untuk memodulasi suara lain atau mensintesis teks agar menyerupai yang asli?
Sebagai contoh, Demo Text-to-Speech oleh AT&T ini memungkinkan Anda memilih suara dan bahasa dari preset yang saya kira didasarkan pada beberapa suara manusia yang telah disampel.
Bagaimana Anda menyebut proses ini? Apakah itu modulasi suara? Sintesis suara?
modulation
voice
clapas
sumber
sumber
Jawaban:
Catatan pertama: Kebanyakan sistem text-to-speech modern, seperti yang ada di AT&T yang Anda tautkan, menggunakan sintesis pidato concatenative . Teknik ini menggunakan basis data besar rekaman suara seseorang yang mengoleksi banyak kalimat - dipilih sehingga jumlah kombinasi fonem terbesar ada. Mensintesis sebuah kalimat dapat dilakukan hanya dengan merangkai bagian-bagian dari korpus ini - bagian yang menantang adalah membuat merangkai bersama menjadi mulus dan ekspresif.
Ada dua rintangan besar jika Anda ingin menggunakan teknik ini untuk membuat presiden Obama mengucapkan kata-kata yang memalukan:
Intuisi Anda bahwa ini adalah solusi yang mungkin valid - asalkan Anda memiliki anggaran untuk mengatasi dua masalah ini.
Untungnya, ada teknik lain yang dapat bekerja dengan pengawasan yang lebih sedikit dan data yang lebih sedikit. Bidang sintesis ucapan yang tertarik pada "pemalsuan" atau "meniru" satu suara dari rekaman dikenal sebagai konversi suara . Anda memiliki rekaman A1 pembicara target A kalimat ucapan 1, dan rekaman B2 pembicara sumber B kalimat kalimat 2, Anda bertujuan menghasilkan rekaman A2 speaker A kalimat ucapan 2, mungkin dengan akses ke rekaman B1 speaker B yang mereproduksi dengan suaranya ucapan yang sama dengan target speaker.
Garis besar sistem konversi suara adalah sebagai berikut:
Saya menekankan fakta bahwa ini beroperasi pada tingkat yang jauh lebih rendah daripada melakukan pengenalan suara pada B2, dan kemudian melakukan TTS menggunakan suara A1 sebagai corpus.
Berbagai teknik statistik digunakan untuk langkah 1 dan 2 - GMM atau VQ menjadi yang paling umum. Berbagai algoritma penyelarasan digunakan untuk bagian 2 - ini adalah bagian tersulit, dan jelas lebih mudah untuk menyelaraskan A1 vs B1, daripada A1 vs B2. Dalam kasus yang lebih sederhana, metode seperti Dynamic Time Warping dapat digunakan untuk membuat perataan. Adapun langkah 4, transformasi yang paling umum adalah transformasi linear (perkalian matriks) pada vektor fitur. Transformasi yang lebih kompleks menghasilkan imitasi yang lebih realistis tetapi masalah regresi untuk menemukan pemetaan yang optimal lebih kompleks untuk dipecahkan. Akhirnya, seperti untuk langkah 5, kualitas resintesis dibatasi oleh fitur yang digunakan. LPC umumnya lebih mudah untuk berurusan dengan metode transformasi sederhana (ambil frame sinyal -> estimasi sisa dan spektrum LPC -> jika perlu pitch-shift residual -> terapkan spektrum LPC yang dimodifikasi untuk residu yang dimodifikasi). Menggunakan representasi ucapan yang dapat dibalikkan kembali ke domain waktu, dan yang memberikan pemisahan yang baik antara prosodi dan fonem adalah kuncinya di sini! Akhirnya, asalkan Anda memiliki akses ke rekaman menyelaraskan speaker A dan B mengatakan kalimat yang sama, ada model statistik yang secara bersamaan menangani langkah 1, 2, 3 dan 4 dalam satu prosedur estimasi model tunggal.
Saya mungkin akan kembali dengan bibliografi nanti, tetapi tempat yang sangat baik untuk mulai merasakan masalah dan kerangka keseluruhan yang digunakan untuk menyelesaikannya adalah Stylianou, Moulines and Cappé "Sebuah sistem untuk konversi suara berdasarkan klasifikasi probabilistik dan harmonik plus model noise ".
Sepengetahuan saya tidak ada banyak perangkat lunak yang melakukan konversi suara - hanya perangkat lunak yang memodifikasi properti dari sumber suara - seperti parameter panjang nada dan saluran vokal (Misalnya transformator IRCAM TRAX) - yang dengannya Anda harus mengacaukan harapan dengan membuat Anda merekam suara lebih dekat ke suara target.
sumber
Anda dapat menggunakan sesuatu seperti MorphVox . Ini sebuah demonstrasi. Prosesnya disebut voice morphing atau konversi. Jika Anda tertarik pada aspek teknis, artikel terbaru yang dapat Anda pelajari adalah Konversi Suara Menggunakan Dynamic Kernel Partial Least Squares Regression .
sumber
Saya mencari hal yang sama, tetapi tidak bisa dilakukan. Ada sebuah perusahaan di Skotlandia bernama CereProc yang melakukan pemodelan suara, tetapi mereka membutuhkan seseorang di lab mereka yang merekam jam audio dan biaya untuk memodelkan satu suara adalah sekitar USD $ 30 ribu.
sumber
Apa yang Anda cari disebut vocoder.
Sudahkah Anda mencoba vocoder Audcity? Audacity dapat diunduh dari: http://audacity.sourceforge.net/download . Demo tentang cara menggunakannya dapat ditemukan di https://www.youtube.com/watch?v=J_rPEmJfwNs .
sumber