Distribusi nilai eigen yang diberikan diketahui

8

Saya akrab dengan menggunakan wawasan dari Teori Matriks Acak untuk menentukan jumlah komponen utama dari PCA dari matriks kovarians / korelasi yang digunakan untuk membentuk faktor.

Jika nilai eigen yang terkait dengan PC pertama besar, maka itu berarti bahwa nilai eigen yang tersisa harus kecil (karena jumlah nilai eigen harus sama dengan jejak matriks korelasi). Ketika PC pertama cukup besar, maka sangat mungkin bahwa semua nilai eigen ini berada di bawah batas bawah pada distribusi Marcenko-Pastur. Ini masuk akal bahwa mereka rendah bukan karena kesempatan acak, tetapi karena nilai eigen pertama sangat besar. Namun, itu tidak berarti bahwa mereka mengandung informasi yang signifikan. Alih-alih, akan lebih masuk akal untuk mengajukan pertanyaan "mengingat PC pertama adalah sejumlah besar, seperti apa distribusi nilai-nilai eigen yang tersisa jika data acak yang bertanggung jawab atas mereka?"

Apakah ada penelitian yang membahas masalah ini? Jika dimungkinkan untuk mendapatkan distribusi Marcenko-Pastur dengan syarat mengetahui satu atau lebih nilai eigen, maka akan mungkin untuk melanjutkan secara iteratif untuk menentukan apakah faktor-faktor mencerminkan informasi yang signifikan.

John
sumber
Apakah Anda hanya berbicara tentang data acak satu faktor (spheroid acak)?
ttnphns
Tidak yakin apa yang Anda maksudkan dengan spheroid acak, tetapi secara umum mungkin ada lebih dari satu faktor untuk diuji. Saya telah menyelesaikannya sehingga masalah nilai eigen bersyarat dapat ditulis sebagaieig(Σ(Iββ)(Iββ))dimana β adalah vektor eigen yang terkait dengan nnilai eigen terbesar, tetapi apa yang bisa saya temukan sebagai ketidaksetaraan yang mengikat nilai eigen dari produk dua matriks tampak agak luas.
John
Memikirkannya sebentar, saya pikir saya mendapat hasil yang benar. λ~±=(1+1Q±21Q)(i=1nλij=1Jλj)/n
John

Jawaban:

3

Berikut ini adalah dokumen tentang masalah Anda: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf

Idenya sederhana, Anda menghitung distribusi Marcenko-Pastur dengan varian elemen matriks yang dimodifikasi. Varians yang dimodifikasi hanya sesuai dengan varians yang dijelaskan oleh nilai eigen lain daripada yang pertama.

Seperti yang dikatakan oleh john, Anda harus mengganti σ2 oleh (i=1nλij=1Jλj)/n untuk yang pertama Jnilai eigen. Jika Anda telah menormalkan masalah Anda dan Anda hanya ingin menghapus komponen pertama, Anda harus menggantiσ2 oleh 1λ1n. Anda akan mendapatkan:

ρ(λ)=nQ2π(1λ1)((λmaxλ)(λλmin)λ)

Dengan:

λmin/max=n(1λ1)(1+1Q±21Q)

Karena mungkin ada lebih banyak informasi dalam matriks Anda daripada hanya satu nilai eigen besar dan kebisingan, Anda akan mengamati beberapa perbedaan. Sebagai contoh dalam studi korelasi pasar kita dapat mengamati kebocoran nilai eigen oleh tepi atas spektrum. (Ini sesuai dengan sektor keuangan).

Pendekatan lain yang disebutkan dalam dokumen adalah untuk dipertimbangkan σ2sebagai parameter tunggal dalam distribusi pastur marcenko. Anda kemudian harus menyesuaikan parameter ini agar sesuai dengan kurva Anda.

Untuk informasi lebih lanjut tentang teknik dan referensi yang bermanfaat, Anda dapat melihatnya di: http://arxiv.org/abs/physics/0507111

lcrmorin
sumber
Formula ini juga perlu direvisi Q karena jumlah kolom telah berkurang 1.
Rohit Arora