Jika saya memiliki dataset dengan pengamatan dan variabel (dimensi), dan umumnya kecil ( ), dan dapat berkisar dari kecil ( ) hingga mungkin jauh lebih besar ( ).
Saya ingat belajar bahwa harus jauh lebih besar dari untuk menjalankan analisis komponen utama (PCA) atau analisis faktor (FA), tetapi sepertinya ini mungkin tidak demikian dalam data saya. Perhatikan bahwa untuk tujuan saya, saya jarang tertarik pada komponen utama PC2 masa lalu.
Pertanyaan:
- Apa aturan praktis untuk ukuran sampel minimum ketika PCA OK untuk digunakan, dan ketika tidak?
- Apakah pernah boleh menggunakan beberapa PC pertama meskipun atau ?
- Apakah ada referensi tentang ini?
Apakah penting jika tujuan utama Anda adalah menggunakan PC1 dan mungkin PC2:
- hanya secara grafis, atau
- sebagai variabel sintetik kemudian digunakan dalam regresi?
pca
sample-size
factor-analysis
Patrick
sumber
sumber
Jawaban:
Anda benar-benar dapat mengukur apakah ukuran sampel Anda "cukup besar". Salah satu gejala dari ukuran sampel kecil yang terlalu kecil adalah ketidakstabilan.
Bootstrap atau cross validasikan PCA Anda: teknik-teknik ini mengganggu set data Anda dengan menghapus / menukar sebagian kecil sampel Anda dan kemudian membangun "model pengganti" untuk setiap set data yang terganggu. Jika model pengganti cukup mirip (= stabil), Anda baik-baik saja. Anda mungkin perlu mempertimbangkan bahwa solusi PCA tidak unik: PC dapat membalik (gandakan skor dan komponen utama masing-masing dengan ). Anda mungkin juga ingin menggunakan rotasi Procrustes, untuk mendapatkan model PC yang semirip mungkin.−1
sumber
Untuk analisis faktor (bukan analisis komponen utama), ada cukup literatur yang mempertanyakan beberapa aturan lama tentang jumlah pengamatan. Rekomendasi Tradisional - setidaknya dalam psikometri - akan memiliki setidaknya pengamatan per variabel (dengan x biasanya di mana saja dari 5 ke 20 ) sehingga dalam setiap kasus n » p .x x 5 20 n≫p
Tinjauan yang agak menyeluruh dengan banyak referensi dapat ditemukan di http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis
Namun, pesan utama yang diambil dari studi simulasi baru-baru ini mungkin adalah bahwa kualitas hasil sangat bervariasi (tergantung pada masyarakat, pada jumlah faktor atau rasio faktor-ke-variabel, dll.) Yang mempertimbangkan Rasio variabel terhadap observasi bukan cara yang baik untuk memutuskan jumlah pengamatan yang diperlukan. Jika kondisinya menguntungkan, Anda mungkin bisa lolos dengan pengamatan yang jauh lebih sedikit daripada yang disarankan pedoman lama tetapi bahkan pedoman paling konservatif terlalu optimis dalam beberapa kasus. Sebagai contoh, Preacher & MacCallum (2002) memperoleh hasil yang baik dengan ukuran sampel yang sangat kecil dan tetapi Mundfrom, Shaw & Ke (2005) menemukan beberapa kasus di mana ukuran sampel n > 100 pp>n n>100p itu perlu. Mereka juga menemukan bahwa jika jumlah faktor yang mendasari tetap sama, lebih banyak variabel (dan tidak lebih sedikit, sebagaimana tersirat oleh pedoman berdasarkan rasio observasi-ke-variabel) dapat mengarah pada hasil yang lebih baik dengan sampel pengamatan yang kecil.
Referensi yang relevan:
sumber
Gagasan di balik ketidaksetaraan MVA sederhana: PCA setara untuk memperkirakan matriks korelasi variabel. Anda mencoba menebak (matriks simetris) koefisien darinpdata. (Itu sebabnya Anda harus memiliki n >> p.)pp−12 np
Kesetaraan dapat dilihat dengan cara ini: setiap langkah PCA adalah masalah optimisasi. Kami berusaha menemukan arah mana yang mengekspresikan varian paling banyak. yaitu:
Di mana adalah matriks kovarians.σ
di bawah kendala:
Mengambil n = p kurang lebih sama dengan menebak nilai hanya dengan dua data ... itu tidak dapat diandalkan.
sumber
Saya harap ini bisa membantu:
Referensi:
dari "R in Action" oleh Robert I. Kabacoff, buku yang sangat informatif dengan saran bagus yang mencakup hampir semua tes statistik.
sumber