Saya akrab dengan menggunakan wawasan dari Teori Matriks Acak untuk menentukan jumlah komponen utama dari PCA dari matriks kovarians / korelasi yang digunakan untuk membentuk faktor.
Jika nilai eigen yang terkait dengan PC pertama besar, maka itu berarti bahwa nilai eigen yang tersisa harus kecil (karena jumlah nilai eigen harus sama dengan jejak matriks korelasi). Ketika PC pertama cukup besar, maka sangat mungkin bahwa semua nilai eigen ini berada di bawah batas bawah pada distribusi Marcenko-Pastur. Ini masuk akal bahwa mereka rendah bukan karena kesempatan acak, tetapi karena nilai eigen pertama sangat besar. Namun, itu tidak berarti bahwa mereka mengandung informasi yang signifikan. Alih-alih, akan lebih masuk akal untuk mengajukan pertanyaan "mengingat PC pertama adalah sejumlah besar, seperti apa distribusi nilai-nilai eigen yang tersisa jika data acak yang bertanggung jawab atas mereka?"
Apakah ada penelitian yang membahas masalah ini? Jika dimungkinkan untuk mendapatkan distribusi Marcenko-Pastur dengan syarat mengetahui satu atau lebih nilai eigen, maka akan mungkin untuk melanjutkan secara iteratif untuk menentukan apakah faktor-faktor mencerminkan informasi yang signifikan.
Jawaban:
Berikut ini adalah dokumen tentang masalah Anda: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf
Idenya sederhana, Anda menghitung distribusi Marcenko-Pastur dengan varian elemen matriks yang dimodifikasi. Varians yang dimodifikasi hanya sesuai dengan varians yang dijelaskan oleh nilai eigen lain daripada yang pertama.
Seperti yang dikatakan oleh john, Anda harus menggantiσ2 oleh (∑ni=1λi−∑Jj=1λj)/n untuk yang pertama J nilai eigen. Jika Anda telah menormalkan masalah Anda dan Anda hanya ingin menghapus komponen pertama, Anda harus menggantiσ2 oleh 1−λ1n . Anda akan mendapatkan:
Dengan:
Karena mungkin ada lebih banyak informasi dalam matriks Anda daripada hanya satu nilai eigen besar dan kebisingan, Anda akan mengamati beberapa perbedaan. Sebagai contoh dalam studi korelasi pasar kita dapat mengamati kebocoran nilai eigen oleh tepi atas spektrum. (Ini sesuai dengan sektor keuangan).
Pendekatan lain yang disebutkan dalam dokumen adalah untuk dipertimbangkanσ2 sebagai parameter tunggal dalam distribusi pastur marcenko. Anda kemudian harus menyesuaikan parameter ini agar sesuai dengan kurva Anda.
Untuk informasi lebih lanjut tentang teknik dan referensi yang bermanfaat, Anda dapat melihatnya di: http://arxiv.org/abs/physics/0507111
sumber