Saya menerapkan PCA, LDA, dan Naif Bayes, masing-masing untuk kompresi dan klasifikasi (menerapkan LDA untuk kompresi dan klasifikasi).
Saya memiliki kode yang ditulis dan semuanya berfungsi. Apa yang perlu saya ketahui, untuk laporan ini, adalah apa definisi umum kesalahan rekonstruksi .
Saya dapat menemukan banyak matematika, dan menggunakannya dalam literatur ... tetapi yang benar-benar saya butuhkan adalah pandangan mata burung / definisi kata yang sederhana, sehingga saya dapat menyesuaikannya dengan laporan.
general definition of reconstruction error
luasnya elusively.Jawaban:
Untuk PCA yang Anda lakukan adalah memproyeksikan data Anda pada subset ruang input Anda. Pada dasarnya, semuanya berlaku pada gambar ini di atas: Anda memproyeksikan data pada subruang dengan varians maksimum. Ketika Anda merekonstruksi data Anda dari proyeksi, Anda akan mendapatkan titik merah, dan kesalahan rekonstruksi adalah jumlah jarak dari titik biru ke titik merah: itu memang sesuai dengan kesalahan yang Anda buat dengan memproyeksikan data Anda di hijau baris. Ini dapat digeneralisasi dalam dimensi apa saja!
Seperti yang ditunjukkan dalam komentar, sepertinya tidak mudah untuk LDA dan saya tidak dapat menemukan definisi yang tepat di internet. Maaf.
sumber
Definisi umum kesalahan rekonstruksi adalah jarak antara titik data asli dan proyeksi ke subruang dimensi-lebih rendah ('perkiraan').
Sumber: Matematika Spesialisasi Pembelajaran Mesin oleh Imperial College London
sumber
Apa yang biasanya saya gunakan sebagai ukuran kesalahan rekonstruksi (dalam konteks PCA, tetapi juga metode lain) adalah koefisien determinasi dan Root Mean Squared Error (atau RMSE yang dinormalisasi). Keduanya mudah untuk dihitung dan memberi Anda gambaran cepat tentang apa yang dilakukan rekonstruksi.R2
Perhitungan
Anggap adalah data asli Anda dan adalah data terkompresi.X f
The dari variabel dapat dihitung sebagai:R2 ith
Karena untuk kesesuaian yang sempurna, Anda dapat menilai rekonstruksi dengan seberapa dekat dengan 1.0.R2=1.0 R2
RMSE dari variabel dapat dihitung sebagai:ith
yang Anda juga dapat menormalkan dengan jumlah yang sesuai dengan Anda (norma ), saya sering menormalkan dengan nilai rata-rata, NRMSE demikian:N
Komputasi
Jika Anda menggunakan Python, Anda dapat menghitung ini sebagai:
dimana
X
data asli danf
data terkompresi.Visualisasi
Jika Anda perlu melakukan beberapa analisis sensitivitas, Anda dapat menilai secara visual bagaimana atau RMSE berubah ketika Anda mengubah parameter kompresi Anda. Misalnya, ini dapat berguna dalam konteks PCA ketika Anda ingin membandingkan rekonstruksi dengan peningkatan jumlah Komponen Utama yang dipertahankan. Di bawah ini Anda melihat bahwa meningkatkan jumlah mode semakin mendekati model:R2
sumber