Saya ingin menggunakan Akaike Information Criterion (AIC) untuk memilih jumlah faktor yang tepat untuk diekstraksi dalam PCA. Satu-satunya masalah adalah saya tidak yakin bagaimana menentukan jumlah parameter.
Pertimbangkan matriks , di mana mewakili jumlah variabel dan jumlah pengamatan, sehingga . Karena matriks kovarians simetris, maka estimasi kemungkinan maksimum dapat menetapkan jumlah parameter dalam AIC sama dengan .X N T X ∼ N ( 0 , Σ ) Σ N ( N + 1 )
Atau, dalam PCA, Anda bisa mengekstrak pertama vektor eigen dan nilai eigen dari , menyebut mereka dan dan kemudian menghitung mana adalah varian residual rata-rata. Menurut hitungan saya, jika Anda memiliki faktor , maka Anda akan parameter di , parameter dalam , dan parameter dalam .Σ β f Λ f Σ = β f Λ f β ′ f + I σ 2 r σ 2 r f f
Apakah pendekatan ini benar? Sepertinya hal itu akan menyebabkan lebih banyak parameter dibandingkan dengan pendekatan kemungkinan maksimum sebagai jumlah faktor meningkat menjadi .
sumber
Jawaban:
Jelas ini mengambil sudut pandang Bayesian dari masalah Anda yang tidak didasarkan pada kriteria teori informasi (KL-divergence) yang digunakan oleh AIC.
Mengenai pertanyaan "penentuan parameter 'angka" asli saya juga berpikir komentar @ whuber membawa intuisi yang benar.
sumber
Memilih sejumlah komponen yang "sesuai" dalam PCA dapat dilakukan secara elegan dengan Horn's Parallel Analysis (PA). Makalah menunjukkan bahwa kriteria ini secara konsisten mengungguli aturan praktis seperti kriteria siku atau aturan Kaiser. Paket R "paran" memiliki implementasi PA yang hanya membutuhkan beberapa klik mouse.
Tentu saja, berapa banyak komponen yang Anda simpan tergantung pada tujuan pengurangan data. Jika Anda hanya ingin mempertahankan varian yang "bermakna", PA akan memberikan pengurangan yang optimal. Namun, jika Anda ingin meminimalkan hilangnya informasi dari data asli, Anda harus menyimpan komponen yang cukup untuk mencakup 95% perbedaan yang dijelaskan. Ini jelas akan menyimpan lebih banyak komponen daripada PA, meskipun untuk dataset berdimensi tinggi, pengurangan dimensionalitas akan tetap besar.
Satu catatan terakhir tentang PCA sebagai masalah "pemilihan model". Saya tidak sepenuhnya setuju dengan jawaban Peter. Ada sejumlah makalah yang merumuskan ulang PCA sebagai masalah tipe regresi, seperti PCA Jarang, PCA Kemungkinan Jarang, atau ScotLASS. Dalam solusi PCA "berbasis model" ini, memuat adalah parameter yang dapat diatur ke 0 dengan ketentuan penalti yang sesuai. Agaknya, dalam konteks ini, dimungkinkan juga untuk menghitung statistik tipe AIC atau BIC untuk model yang dipertimbangkan.
Pendekatan ini secara teoritis dapat mencakup model di mana, misalnya, dua PC tidak dibatasi (semua memuat non-nol), versus model di mana PC1 tidak dibatasi dan PC2 memiliki semua beban diatur ke 0. Ini akan setara dengan menyimpulkan apakah PC2 berlebihan secara keseluruhan.
Referensi (PA) :
sumber
AIC dirancang untuk pemilihan model. Ini sebenarnya bukan masalah pemilihan model dan mungkin Anda akan lebih baik mengambil pendekatan yang berbeda. Alternatifnya adalah dengan menentukan persentase total tertentu dari varians yang dijelaskan (misalnya, 75%) dan berhenti ketika persentase mencapai 75% jika pernah.
sumber
AIC tidak sesuai di sini. Anda tidak memilih di antara model dengan jumlah parameter yang bervariasi - komponen utama bukan parameter.
Ada sejumlah metode untuk menentukan jumlah faktor atau komponen dari analisis faktor atau analisis komponen utama - uji scree, nilai eigen> 1, dll. Tetapi tes sebenarnya adalah substantif: Jumlah faktor apa yang masuk akal ? Lihatlah faktor-faktornya, pertimbangkan bobotnya, cari tahu mana yang paling cocok dengan data Anda.
Seperti hal lain dalam statistik, ini bukan sesuatu yang dapat dengan mudah diotomatisasi.
sumber