Jika Anda memiliki matriks dengan kolom n rows dan m, Anda dapat menggunakan SVD atau metode lain untuk menghitung perkiraan peringkat rendah dari matriks yang diberikan.
Namun, perkiraan peringkat rendah masih akan memiliki kolom n rows dan m. Bagaimana perkiraan peringkat rendah berguna untuk pembelajaran mesin dan pemrosesan bahasa alami, mengingat Anda dibiarkan memiliki jumlah fitur yang sama?
r
matrix
approximation
Zach
sumber
sumber
Jawaban:
Sebuah rendah peringkat pendekatan X dari X dapat didekomposisi menjadi akar kuadrat matriks sebagai G = U r λ 1X^ X mana dekomposisi eigen dariXadalahUλUT, sehingga mengurangi jumlah fitur, yang dapat diwakili olehGberdasarkan pendekatan rank-r sebagaiX=GGT. Perhatikan bahwa subskripr mewakili jumlah vektor-eigen dan nilai-eigen yang digunakan dalam perkiraan. Oleh karena itu, ini mengurangi jumlah fitur untuk merepresentasikan data. Dalam beberapa contoh pendekatan peringkat rendah dianggap sebagai basis atau variabel laten (kamus) berdasarkan ekspansi data asli, di bawah kendala khusus seperti ortogonalitas, non-negatif (faktorisasi matriks non-negatif) dll.G = Urλ12r X Uλ UT G X^= G GT r
sumber
Titik perkiraan peringkat rendah tidak harus hanya untuk melakukan pengurangan dimensi.
Idenya adalah bahwa berdasarkan pengetahuan domain, data / entri matriks akan membuat peringkat matriks menjadi rendah. Tapi itu dalam kasus ideal di mana entri tidak terpengaruh oleh kebisingan, korupsi, nilai-nilai yang hilang dll. Matriks yang diamati biasanya akan memiliki peringkat yang jauh lebih tinggi.
Dengan demikian, pendekatan peringkat rendah adalah cara untuk memulihkan matriks "asli" ("ideal" sebelum dikacaukan oleh kebisingan, dll.) Matriks peringkat rendah yaitu, temukan matriks yang paling konsisten (dalam hal entri yang diamati) dengan matriks saat ini dan berpangkat rendah sehingga dapat digunakan sebagai pendekatan terhadap matriks ideal. Setelah memulihkan matriks ini, kita dapat menggunakannya sebagai pengganti versi berisik dan mudah-mudahan mendapatkan hasil yang lebih baik.
sumber
Dua alasan lain yang tidak disebutkan sejauh ini:
Mengurangi kolinearitas. Saya percaya bahwa sebagian besar teknik ini menghilangkan colinearity, yang dapat membantu untuk proses lanjutan.
Imajinasi kami adalah peringkat rendah, sehingga dapat membantu untuk mengeksplorasi hubungan peringkat rendah.
sumber
sumber
Menurut "teknik statistik multivariat modern (Izenman)", regresi pangkat yang dikurangi mencakup beberapa metode menarik seperti kasus khusus termasuk PCA, analisis faktor, variasi kanonik dan analisis korelasi, LDA dan analisis korespondensi
sumber