Arti “kesalahan rekonstruksi” dalam PCA dan LDA

Saya menerapkan PCA, LDA, dan Naif Bayes, masing-masing untuk kompresi dan klasifikasi (menerapkan LDA untuk kompresi dan klasifikasi).

Saya memiliki kode yang ditulis dan semuanya berfungsi. Apa yang perlu saya ketahui, untuk laporan ini, adalah apa definisi umum kesalahan rekonstruksi .

Saya dapat menemukan banyak matematika, dan menggunakannya dalam literatur ... tetapi yang benar-benar saya butuhkan adalah pandangan mata burung / definisi kata yang sederhana, sehingga saya dapat menyesuaikannya dengan laporan.

machine-learning pca terminology dimensionality-reduction discriminant-analysis Christopher
sumber

Kesalahan rekonstruksi adalah konsep yang berlaku (dari daftar Anda) hanya untuk PCA, bukan untuk LDA atau Bayes yang naif. Apakah Anda bertanya tentang apa arti kesalahan rekonstruksi dalam PCA, atau Anda menginginkan "definisi umum" yang juga berlaku untuk LDA dan Bayes naif?

amoeba

Apakah kamu tahu keduanya? Laporan ini melibatkan PCA dan LDA terkait dengan kompresi data, jadi saya harus memiliki beberapa jenis jawaban, baik PCA dan LDA ... tetapi tidak harus NB. Jadi, mungkin versi khusus pca-spesifik ... dan ide umum, jadi saya bisa menerapkannya pada LDA sebaik yang saya bisa. Kemudian, saya memiliki pengetahuan yang cukup untuk mencari di Google lebih efektif jika saya mengalami hambatan ...

Christopher

Pertanyaan ini mungkin lebih baik ditutup karena general definition of reconstruction errorluasnya elusively.

ttnphns

@ttnphns, saya tidak berpikir itu terlalu luas. Saya pikir pertanyaannya dapat dirumuskan ulang sebagai "Bisakah kita menerapkan gagasan PCA tentang kesalahan rekonstruksi pada LDA?" dan saya pikir ini adalah pertanyaan yang menarik dan sesuai topik (+1). Saya akan mencoba menulis jawaban sendiri jika saya punya waktu.

amoeba

@amoeba, dalam formulasi yang disarankan oleh Anda pertanyaan itu memang menerima cahaya. Ya, maka mungkin untuk menulis jawaban (dan saya berharap jawaban Anda akan baik). Suatu hal yang rumit tentang "apa yang sedang direkonstruksi" di LDA adalah masalah apa yang dianggap sebagai DV dan apa yang IV dalam LDA.

ttnphns

Jawaban:

Untuk PCA yang Anda lakukan adalah memproyeksikan data Anda pada subset ruang input Anda. Pada dasarnya, semuanya berlaku pada gambar ini di atas: Anda memproyeksikan data pada subruang dengan varians maksimum. Ketika Anda merekonstruksi data Anda dari proyeksi, Anda akan mendapatkan titik merah, dan kesalahan rekonstruksi adalah jumlah jarak dari titik biru ke titik merah: itu memang sesuai dengan kesalahan yang Anda buat dengan memproyeksikan data Anda di hijau baris. Ini dapat digeneralisasi dalam dimensi apa saja!

Seperti yang ditunjukkan dalam komentar, sepertinya tidak mudah untuk LDA dan saya tidak dapat menemukan definisi yang tepat di internet. Maaf.

Vince.Bdn
sumber

Kasus LDA lebih rumit dari itu. Apa yang akan Anda lakukan jika proyeksi 2 dimensi? Dalam PCA, dua sumbu utama adalah ortogonal dan membentuk bidang 2D sehingga tentu saja gagasan yang sama tentang kesalahan rekonstruksi berlaku. Namun dalam LDA, dua sumbu diskriminan tidak ortogonal. Bagaimana tepatnya Anda menyarankan untuk mendefinisikan kesalahan rekonstruksi?

amoeba

Saya mendapat dua komentar tentang jawabannya. 1) Apakah Anda mengatakan bahwa foto Anda 1 menunjukkan PC1 yang sebenarnya? 2) Untuk LDA dan gambar ke-2 - Anda dapat menggambar diskriminan sebagai sumbu di ruang asli dan memanggil residu titik data "kesalahan rekonstruksi". Tetapi ini adalah praktik terminologis yang longgar. Apa yang direkonstruksi diskriminan? Juga, tambahkan di sini apa yang dikatakan amuba tentang nonorthogonality aksial (lihat di sini ).

ttnphns

1) Ini gambar yang diambil dari pencarian google yang menunjukkan kesalahan tetapi memang pca akan jauh lebih vertikal, saya akan mencoba untuk menemukan yang lebih baik dan memperbarui.

Vince.Bdn

2) Saya telah mengedit posting saya. Saya cenderung melihat pembeda sebagai kapak di ruang asli memang untuk sudut pandang geometris tetapi seperti yang ditunjukkan tidak ada ortogonalitas. Kesalahan saya ...

Vince.Bdn

Vince, ini keputusanmu. Tetapi bagi saya, di tempat Anda saya sebaiknya meninggalkan foto kedua dalam jawaban juga. Anda tidak salah dan pandangan Anda adalah mungkin. Masalahnya, bagaimanapun, lebih kompleks dengan LDA; komentar hanya untuk menekankan itu .

ttnphns

Definisi umum kesalahan rekonstruksi adalah jarak antara titik data asli dan proyeksi ke subruang dimensi-lebih rendah ('perkiraan').

Sumber: Matematika Spesialisasi Pembelajaran Mesin oleh Imperial College London

Serim Hande Tarcan
sumber

Apa yang biasanya saya gunakan sebagai ukuran kesalahan rekonstruksi (dalam konteks PCA, tetapi juga metode lain) adalah koefisien determinasi dan Root Mean Squared Error (atau RMSE yang dinormalisasi). Keduanya mudah untuk dihitung dan memberi Anda gambaran cepat tentang apa yang dilakukan rekonstruksi. $R^2$

Perhitungan

Anggap adalah data asli Anda dan adalah data terkompresi. $X$ $f$

The dari variabel dapat dihitung sebagai: $R^2$ $i^{th}$

$R^2_i = 1 - \frac{\sum_{j=1}^n (X_{j,i} - f_{j,i})^2}{\sum_{j=1}^n X_{j,i}^2}$

Karena untuk kesesuaian yang sempurna, Anda dapat menilai rekonstruksi dengan seberapa dekat dengan 1.0. $R^2 = 1.0$ $R^2$

RMSE dari variabel dapat dihitung sebagai: $i^{th}$

$\text{RMSE}_i = \sqrt{\overline{(X_i - f_i)^2}}$

yang Anda juga dapat menormalkan dengan jumlah yang sesuai dengan Anda (norma ), saya sering menormalkan dengan nilai rata-rata, NRMSE demikian: $N$

$\text{NRMSE}_i = \frac{\text{RMSE}_i}{N_i} = \sqrt{\frac{\overline{(X_i - f_i)^2}}{\overline{X_i^2}}}$

Komputasi

Jika Anda menggunakan Python, Anda dapat menghitung ini sebagai:

from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from math import sqrt
import numpy as np

r2 = r2_score(X, f)
rmse = sqrt(mean_squared_error(X, f))

# RMSE normalised by mean:
nrmse = rmse/sqrt(np.mean(X**2))

dimana Xdata asli dan fdata terkompresi.

Visualisasi

Jika Anda perlu melakukan beberapa analisis sensitivitas, Anda dapat menilai secara visual bagaimana atau RMSE berubah ketika Anda mengubah parameter kompresi Anda. Misalnya, ini dapat berguna dalam konteks PCA ketika Anda ingin membandingkan rekonstruksi dengan peningkatan jumlah Komponen Utama yang dipertahankan. Di bawah ini Anda melihat bahwa meningkatkan jumlah mode semakin mendekati model: $R^2$

camillejr
sumber