Mengapa repot dengan perkiraan peringkat rendah?

20

Jika Anda memiliki matriks dengan kolom n rows dan m, Anda dapat menggunakan SVD atau metode lain untuk menghitung perkiraan peringkat rendah dari matriks yang diberikan.

Namun, perkiraan peringkat rendah masih akan memiliki kolom n rows dan m. Bagaimana perkiraan peringkat rendah berguna untuk pembelajaran mesin dan pemrosesan bahasa alami, mengingat Anda dibiarkan memiliki jumlah fitur yang sama?

Zach
sumber
2
Mereka biasanya memiliki representasi jarang - Anda tidak perlu menyimpan angka untuk perkiraan peringkat rendah. Misalnya, perkiraan peringkat 1 membutuhkan angka . n + mmnn+m
probabilityislogic

Jawaban:

16

Sebuah rendah peringkat pendekatan X dari X dapat didekomposisi menjadi akar kuadrat matriks sebagai G = U r λ 1X^Xmana dekomposisi eigen dariXadalahUλUT, sehingga mengurangi jumlah fitur, yang dapat diwakili olehGberdasarkan pendekatan rank-r sebagaiX=GGT. Perhatikan bahwa subskripr mewakili jumlah vektor-eigen dan nilai-eigen yang digunakan dalam perkiraan. Oleh karena itu, ini mengurangi jumlah fitur untuk merepresentasikan data. Dalam beberapa contoh pendekatan peringkat rendah dianggap sebagai basis atau variabel laten (kamus) berdasarkan ekspansi data asli, di bawah kendala khusus seperti ortogonalitas, non-negatif (faktorisasi matriks non-negatif) dll.G=Urλr12XUλUTGX^=GGTr

mobil jenazah
sumber
5

Titik perkiraan peringkat rendah tidak harus hanya untuk melakukan pengurangan dimensi.

Idenya adalah bahwa berdasarkan pengetahuan domain, data / entri matriks akan membuat peringkat matriks menjadi rendah. Tapi itu dalam kasus ideal di mana entri tidak terpengaruh oleh kebisingan, korupsi, nilai-nilai yang hilang dll. Matriks yang diamati biasanya akan memiliki peringkat yang jauh lebih tinggi.

Dengan demikian, pendekatan peringkat rendah adalah cara untuk memulihkan matriks "asli" ("ideal" sebelum dikacaukan oleh kebisingan, dll.) Matriks peringkat rendah yaitu, temukan matriks yang paling konsisten (dalam hal entri yang diamati) dengan matriks saat ini dan berpangkat rendah sehingga dapat digunakan sebagai pendekatan terhadap matriks ideal. Setelah memulihkan matriks ini, kita dapat menggunakannya sebagai pengganti versi berisik dan mudah-mudahan mendapatkan hasil yang lebih baik.

lightalchemist
sumber
4

Dua alasan lain yang tidak disebutkan sejauh ini:

  1. Mengurangi kolinearitas. Saya percaya bahwa sebagian besar teknik ini menghilangkan colinearity, yang dapat membantu untuk proses lanjutan.

  2. Imajinasi kami adalah peringkat rendah, sehingga dapat membantu untuk mengeksplorasi hubungan peringkat rendah.

Wayne
sumber
3

r<mrm

JohnRos
sumber
1

Menurut "teknik statistik multivariat modern (Izenman)", regresi pangkat yang dikurangi mencakup beberapa metode menarik seperti kasus khusus termasuk PCA, analisis faktor, variasi kanonik dan analisis korelasi, LDA dan analisis korespondensi

pengguna1137731
sumber