Apa gunanya dekomposisi nilai singular?

9

Saya tidak mengerti mengapa pengurangan dimensi itu penting. Apa manfaat mengambil beberapa data dan mengurangi dimensi mereka?

whuber
sumber
3
Nada pertanyaan tidak mengundang jawaban yang membangun. Silakan pertimbangkan untuk menulis ulang pertanyaan Anda.
Sasha
2
Intinya mungkin untuk mengurangi volume data yang diperlukan untuk menyimpan informasi tertentu sebagai biaya kehilangan sedikit keakuratan (misalnya kompresi gambar JPEG).
Sasha
2
Terima kasih atas komentar Anda, @Sasha. Ini pertanyaan yang masuk akal, jadi saya membuat sedikit pengeditan untuk menghindari kesan blak-blakan (pasti tidak disengaja) yang disampaikan oleh kata-kata aslinya.
whuber
Lihat stats.stackexchange.com/questions/177102/… untuk contoh!
kjetil b halvorsen
Anda melakukan SVD untuk pemodelan topik yang BUKAN probabilistik. Untuk pemodelan topik yang probabilistik gunakan LDA. Jika Anda TIDAK melakukan pemodelan topik maka gunakan PCA.
Brad

Jawaban:

18

Dekomposisi nilai singular (SVD) tidak sama dengan mengurangi dimensi data. Ini adalah metode penguraian matriks ke dalam matriks lain yang memiliki banyak properti indah yang tidak akan saya bahas di sini. Untuk lebih lanjut tentang SVD, lihat halaman Wikipedia .

Mengurangi dimensi data Anda terkadang sangat berguna. Mungkin saja Anda memiliki lebih banyak variabel daripada pengamatan; ini tidak jarang dalam pekerjaan genom. Mungkin kita memiliki beberapa variabel yang sangat berkorelasi tinggi, misalnya, ketika mereka sangat dipengaruhi oleh sejumlah kecil faktor yang mendasarinya, dan kami ingin memulihkan beberapa perkiraan terhadap faktor-faktor yang mendasarinya. Teknik pengurangan dimensi seperti analisis komponen utama, penskalaan multidimensi, dan analisis variasi kanonik memberi kita wawasan tentang hubungan antara pengamatan dan / atau variabel yang mungkin tidak bisa kita dapatkan dengan cara lain.

Contoh nyata: beberapa tahun lalu saya menganalisis survei kepuasan karyawan yang memiliki lebih dari 100 pertanyaan. Ya, tidak ada manajer yang dapat melihat 100+ pertanyaan bernilai jawaban, bahkan dirangkum, dan melakukan lebih dari sekadar menebak apa artinya semua itu, karena siapa yang dapat mengetahui bagaimana jawaban terkait dan apa yang mendorongnya, sungguh ? Saya melakukan analisis faktor pada data, yang saya miliki lebih dari 10.000 pengamatan, dan muncul dengan lima faktor yang sangat jelas dan mudah ditafsirkan yang dapat digunakan untuk mengembangkan skor spesifik manajer (satu untuk setiap faktor) yang akan meringkas keseluruhan dari survei 100+ pertanyaan. Solusi yang jauh lebih baik daripada dump spreadsheet Excel yang telah menjadi metode sebelumnya untuk melaporkan hasil!

Jbowman
sumber
Metode yang disebut "thin SVD" digunakan untuk pengurangan dimensi. Lihat Wikipedia di SVD.
cyborg
5

Mengenai poin kedua dari pertanyaan Anda, manfaat pengurangan dimensionalitas untuk set data mungkin:

  • mengurangi ruang penyimpanan yang dibutuhkan
  • mempercepat perhitungan (misalnya dalam algoritme pembelajaran mesin), lebih sedikit dimensi yang berarti les komputasi, juga lebih sedikit dimensi yang dapat memungkinkan penggunaan algoritme yang tidak cocok untuk sejumlah besar dimensi
  • hapus fitur yang berlebihan, misalnya tidak ada gunanya menyimpan ukuran medan dalam meter persegi dan mil persegi (mungkin pengumpulan data cacat)
  • mengurangi dimensi data menjadi 2D atau 3D memungkinkan kita untuk memplot dan memvisualisasikannya, mungkin mengamati pola, memberi kita wawasan

Selain itu, di luar PCA, SVD's memiliki banyak aplikasi dalam pemrosesan sinyal, NLP dan banyak lagi

clyfe
sumber
2

Lihatlah jawaban saya ini. Dekomposisi nilai singular adalah komponen kunci dari analisis komponen utama , yang merupakan teknik analisis data yang sangat berguna dan sangat kuat.

Ini sering digunakan dalam algoritma pengenalan wajah, dan saya sering menggunakannya dalam pekerjaan saya sebagai analis hedge fund.

Chris Taylor
sumber
1
Bukankah SVD dan PCA (sementara terkait) berbeda prosedur?
B_Miner
2
Kamu benar. SVD adalah metode untuk mendapatkan solusi untuk masalah PCA.
bayerj
1
@ B_Miner Ya - itu sebabnya saya mengatakan bahwa svd adalah komponen kunci pca. Saya fokus pada pca karena pertanyaannya menyangkut pengurangan dimensi (yang pca sesuai, dan svd tidak)
Chris Taylor
Mungkin kata pilihan komponen adalah apa yang membuang @B_Miner sementara. :)
kardinal