Jelaskan langkah-langkah algoritma LLE (local linear embedding)?

13

Saya mengerti prinsip dasar di balik algoritma untuk LLE terdiri dari tiga langkah.

  1. Menemukan lingkungan setiap titik data dengan beberapa metrik seperti k-nn.
  2. Temukan bobot untuk setiap tetangga yang menunjukkan efek yang dimiliki tetangga pada titik data.
  3. Bangun penyisipan data dimensi rendah berdasarkan bobot yang dihitung.

Tetapi penjelasan matematis dari langkah 2 dan 3 membingungkan dalam semua buku teks dan sumber daya online yang telah saya baca. Saya tidak dapat alasan mengapa formula itu digunakan.

Bagaimana langkah-langkah ini dilakukan dalam praktik? Apakah ada cara intuitif untuk menjelaskan rumus matematika yang digunakan?

Referensi: http://www.cs.nyu.edu/~roweis/lle/publications.html

Pengguna1234321232
sumber

Jawaban:

10

Local linear embedding (LLE) menghilangkan kebutuhan untuk memperkirakan jarak antara objek yang jauh dan memulihkan struktur global non-linier dengan pencocokan linear lokal. LLE menguntungkan karena tidak melibatkan parameter seperti tingkat pembelajaran atau kriteria konvergensi. LLE juga berskala baik dengan dimensi intrinsik . Fungsi objektif untuk LLE adalah Matriks bobot elemen untuk objek dan ditetapkan ke nol jikaY

ζ(Y)=(YWY)2=Y(IW)(IW)Y
Wwijijjbukan tetangga terdekat , jika tidak, bobot untuk K-tetangga terdekat objek ditentukan melalui kuadrat terkecil yang sesuai dari mana variabel dependen adalah vektor , adalah matriks Gram untuk semua tetangga terdekat dari objek , dan adalah vektor bobot yang mengikuti batasan jumlah hingga kesatuan. Biarkan menjadi semidefinit positif simetrisii
U=Gβ
UK×1GK×KiβK×1DK×Kmatriks jarak untuk semua pasangan tetangga terdekat K dari objek -dimensi . Dapat diperlihatkan bahwa sama dengan matriks jarak berpusat ganda dengan elemen The koefisien regresi ditentukan secara numerik menggunakan pxiGτ
τlm=12(dlm21Kldlm21Kmdlm2+lmdlm2).
K
βK×1=(ττ)K×K1τUK×1,
dan diperiksa untuk mengonfirmasi mereka berjumlah satu. Nilai disematkan ke baris dari pada berbagai posisi kolom yang sesuai dengan tetangga terdekat K-objek objek , serta elemen transpos. Ini diulang untuk setiap objek th dalam dataset. Perlu dicatat bahwa jika jumlah tetangga terdekat terlalu rendah, maka dapat jarang menyebabkan analisis eigen menjadi sulit. Diamati bahwa tetangga terdekat menghasilkanβiWiiKWK=9Wmatriks yang tidak mengandung patologi selama analisis eigen. Fungsi objektif diminimalkan dengan menemukan nilai eigen non-nol terkecil dari Bentuk dikurangi diwakili oleh mana memiliki dimensi berdasarkan pada dua nilai eigen terendah dari .
(IW)(IW)E=ΛDE.
XY=EEn×2Λ

Logika NXG
sumber
"K = 9 tetangga terdekat" Tidakkah ini bergantung pada dimensi ? Misalnya, jika memiliki dimensi kurang dari 9, maka matriks bobot tidak ditentukan secara unik. Apakah ini menyebabkan masalah dengan LLE? YYW
Scott
Ya, tetapi jika ada, katakanlah, 8 dimensi maka untuk data acak secara harfiah setiap titik dapat ditulis dengan sempurna sebagai kombinasi linear dari 9 lainnya, dalam jumlah cara yang tak terbatas.
Scott
Selalu ada skenario "bagaimana jika" ketika menerapkan teknik, dan itulah sebabnya batasan parameter digunakan.
NXG Logic