Saya memiliki sinyal ucapan tiga puluh detik yang disampel pada 44,1 kHz. Sekarang, saya ingin menunjukkan frekuensi apa yang dimiliki pidato. Namun, saya tidak yakin apa cara terbaik untuk melakukan itu. Tampaknya kadang-kadang seseorang menghitung nilai absolut dari transformasi Fourier, dan kadang-kadang kepadatan spektral daya. Jika saya mengerti dengan benar, yang terakhir berfungsi sehingga saya membagi sinyal saya menjadi beberapa bagian, melakukan FFT bagian demi bagian dan entah bagaimana menjumlahkannya. Fungsi jendela entah bagaimana terlibat. Bisakah Anda sedikit menjelaskan ini untuk saya? Saya baru mengenal DSP.
fft
frequency-spectrum
dft
speech
frequency-domain
berputar
sumber
sumber
Jawaban:
Jika Anda ingin melampirkan makna fisik pada analisis Anda, maka pergilah dengan power spectral density, (PSD). Ini karena ini hanya akan memberi Anda kekuatan sinyal Anda, di setiap pita frekuensi. Di sisi lain jika Anda tidak ingin / peduli tentang makna fisik, tetapi ingin tahu bagaimana empatier amplitudo dari masing-masing band relatif berbeda satu sama lain, Anda dapat menempel pada besaran absolut.
Dalam praktiknya, Anda dapat menghitung PSD hanya sebagai besaran absolut dari transformasi fourier kuadrat. Misalnya, jika sinyal Anda adalah , dan DFT-nya adalah , maka besarnya absolut DFT adalah, sedangkan PSD adalah .x[n] X(f) |X(f)| |X(f)|2
Tidak, ini tidak benar. Apa yang Anda bicarakan di sini mengacu pada Short Time Fourier Transform , (STFT). Ini hanya memotong sinyal domain waktu Anda, menjanda itu, dan kemudian mengambil trnasform fourier. Pada akhirnya, Anda masih akan memiliki matriks yang kompleks. Jika Anda memilih untuk mengambil besaran absolutnya, Anda akan memiliki matriks transformasi fourier magnitudo absolut. Jika Anda mengambil besarnya absolut kuadrat, Anda akan memiliki matriks kerapatan spektral daya.
sumber
Hal penting untuk dipahami tentang sesuatu seperti sinyal ucapan adalah komponen frekuensinya berbeda-beda waktu . Untuk merepresentasikan ucapan dalam domain frekuensi, kita biasanya mengambil jendela sinyal yang cukup pendek di mana kita dapat mengasumsikan bahwa spektrum ucapan tidak bervariasi secara signifikan (biasanya 10 ms). Jadi kami menghitung spektrum daya untuk setiap jendela 10 ms berturut-turut menggunakan STFT (seringkali dengan beberapa tumpang tindih antar windows) dan memperlakukan setiap spektrum berturut-turut sebagai "potret" komponen frekuensi pidato pada waktu tertentu. Seringkali spektrum berturut-turut diplot dalam plot 3D seperti spektogram, dengan waktu pada sumbu X, frekuensi pada sumbu Y, dan besarnya diplot sebagai warna salah atau intensitas skala abu-abu di setiap lokasi X, Y.
sumber