Ukuran sampel minimum untuk PCA atau FA ketika tujuan utamanya adalah memperkirakan hanya beberapa komponen?

27

Jika saya memiliki dataset dengan pengamatan dan variabel (dimensi), dan umumnya kecil ( ), dan dapat berkisar dari kecil ( ) hingga mungkin jauh lebih besar ( ).npnn=1216pp=410p=3050

Saya ingat belajar bahwa harus jauh lebih besar dari untuk menjalankan analisis komponen utama (PCA) atau analisis faktor (FA), tetapi sepertinya ini mungkin tidak demikian dalam data saya. Perhatikan bahwa untuk tujuan saya, saya jarang tertarik pada komponen utama PC2 masa lalu.np

Pertanyaan:

  1. Apa aturan praktis untuk ukuran sampel minimum ketika PCA OK untuk digunakan, dan ketika tidak?
  2. Apakah pernah boleh menggunakan beberapa PC pertama meskipun atau ?n=pn<p
  3. Apakah ada referensi tentang ini?
  4. Apakah penting jika tujuan utama Anda adalah menggunakan PC1 dan mungkin PC2:

    • hanya secara grafis, atau
    • sebagai variabel sintetik kemudian digunakan dalam regresi?
Patrick
sumber
Saya ingat pernah membaca tentang pedoman semacam ini sehubungan dengan analisis faktor. Apakah Anda juga tertarik dengan itu atau hanya di PCA? Juga, jawabannya mungkin tergantung pada jenis data yang Anda hadapi, apakah Anda memiliki bidang aplikasi tertentu dalam pikiran?
Gala
1
Terima kasih Gael untuk komentar dan referensi di bawah ini. Sekarang saya perlu mengetahui perbedaan antara FA dan PCA. :)
Patrick
3
Pertanyaan ini telah diperlakukan secara luas di situs ini, lihat misalnya stats.stackexchange.com/questions/1576/… dan stats.stackexchange.com/questions/612/…
Gala

Jawaban:

21

Anda benar-benar dapat mengukur apakah ukuran sampel Anda "cukup besar". Salah satu gejala dari ukuran sampel kecil yang terlalu kecil adalah ketidakstabilan.

Bootstrap atau cross validasikan PCA Anda: teknik-teknik ini mengganggu set data Anda dengan menghapus / menukar sebagian kecil sampel Anda dan kemudian membangun "model pengganti" untuk setiap set data yang terganggu. Jika model pengganti cukup mirip (= stabil), Anda baik-baik saja. Anda mungkin perlu mempertimbangkan bahwa solusi PCA tidak unik: PC dapat membalik (gandakan skor dan komponen utama masing-masing dengan ). Anda mungkin juga ingin menggunakan rotasi Procrustes, untuk mendapatkan model PC yang semirip mungkin.1

Cbeleites mendukung Monica
sumber
Terima kasih cbeleites. Apakah Anda pikir bootstrap akan terlalu informatif dengan n serendah, katakanlah, 16? Untuk memahami, saya hanya akan mencari stabilitas relatif dengan menjalankan banyak PCA, meninggalkan satu situs keluar setiap menjalankan.
Patrick
Dalam hal ini tentu layak untuk melihat semua 16 model yang terganggu dengan menghapus satu sampel (atau bahkan sama sekali 120 model yang meninggalkan 2 sampel). Saya pikir dengan kecil saya mungkin akan pergi untuk pendekatan cv seperti sistematis. n
cbeleites mendukung Monica
23

Untuk analisis faktor (bukan analisis komponen utama), ada cukup literatur yang mempertanyakan beberapa aturan lama tentang jumlah pengamatan. Rekomendasi Tradisional - setidaknya dalam psikometri - akan memiliki setidaknya pengamatan per variabel (dengan x biasanya di mana saja dari 5 ke 20 ) sehingga dalam setiap kasus n » p .xx520np

Tinjauan yang agak menyeluruh dengan banyak referensi dapat ditemukan di http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

Namun, pesan utama yang diambil dari studi simulasi baru-baru ini mungkin adalah bahwa kualitas hasil sangat bervariasi (tergantung pada masyarakat, pada jumlah faktor atau rasio faktor-ke-variabel, dll.) Yang mempertimbangkan Rasio variabel terhadap observasi bukan cara yang baik untuk memutuskan jumlah pengamatan yang diperlukan. Jika kondisinya menguntungkan, Anda mungkin bisa lolos dengan pengamatan yang jauh lebih sedikit daripada yang disarankan pedoman lama tetapi bahkan pedoman paling konservatif terlalu optimis dalam beberapa kasus. Sebagai contoh, Preacher & MacCallum (2002) memperoleh hasil yang baik dengan ukuran sampel yang sangat kecil dan tetapi Mundfrom, Shaw & Ke (2005) menemukan beberapa kasus di mana ukuran sampel n > 100 pp>nn>100pitu perlu. Mereka juga menemukan bahwa jika jumlah faktor yang mendasari tetap sama, lebih banyak variabel (dan tidak lebih sedikit, sebagaimana tersirat oleh pedoman berdasarkan rasio observasi-ke-variabel) dapat mengarah pada hasil yang lebih baik dengan sampel pengamatan yang kecil.

Referensi yang relevan:

  • Mundfrom, DJ, Shaw, DG, & Ke, TL (2005). Rekomendasi ukuran sampel minimum untuk melakukan analisis faktor. International Journal of Testing, 5 (2), 159-168.
  • Pengkhotbah, KJ, & MacCallum, RC (2002). Analisis faktor eksplorasi dalam penelitian genetika perilaku: Pemulihan faktor dengan ukuran sampel kecil. Genetika Perilaku, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D., & Wieringa, PA (2009). Analisis faktor eksplorasi dengan ukuran sampel kecil. Penelitian Perilaku Multivariat, 44 (2), 147-181.
Gala
sumber
5
(+1) Berikut ini adalah makalah lain, menggunakan simulasi dan dataset nyata, yang menunjukkan bahwa aturan praktis tidak bekerja dengan baik dalam praktek, dan yang menyediakan ukuran sampel yang diperlukan untuk mendapatkan solusi yang stabil dan akurat dalam EFA- -mengontrol berbagai kriteria kualitas - sebagai fungsi dari jumlah faktor dan jumlah item (dan opsional setengah lebar Cronbach's alpha 95% CI, berdasarkan formula Feldt) dalam skala psikiatri: persyaratan ukuran sampel untuk validasi internal skala psikiatrik Int J Methods Psychiatr Res. 2011 Des; 20 (4): 235-49.
chl
1

Gagasan di balik ketidaksetaraan MVA sederhana: PCA setara untuk memperkirakan matriks korelasi variabel. Anda mencoba menebak (matriks simetris) koefisien darinpdata. (Itu sebabnya Anda harus memiliki n >> p.)pp12np

Kesetaraan dapat dilihat dengan cara ini: setiap langkah PCA adalah masalah optimisasi. Kami berusaha menemukan arah mana yang mengekspresikan varian paling banyak. yaitu:

max(aiTΣai)

Di mana adalah matriks kovarians.σ

di bawah kendala:

aiTai=1

aiTaj=0
j<i

Σσ

Mengambil n = p kurang lebih sama dengan menebak nilai hanya dengan dua data ... itu tidak dapat diandalkan.

2np

lcrmorin
sumber
kk(p1)+(p2)++(pk)pkp(p1)/2
whuber
Intinya adalah Anda menghitung (pk) koefisien vektor eigen dari p (p-1) / 2 koefisien dari matriks. Untuk matriks acak, saya tidak berpikir ada cara untuk "melewati" beberapa koefisien penghitungan vektor eigen / nilai eigen.
lcrmorin
Tentu ada: algoritma yang biasa menemukan nilai eigen dan vektor eigen satu per satu, dari nilai eigen terbesar ke bawah. Selain itu, ini bukan masalah komputasi, tetapi salah satu penghitungan jumlah nilai yang diperkirakan - kecuali saya salah membaca jawaban Anda?
whuber
1

Saya harap ini bisa membantu:

untuk FA dan PCA

'' Metode yang dijelaskan dalam bab ini membutuhkan sampel besar untuk mendapatkan solusi stabil. Apa yang merupakan ukuran sampel yang memadai agak rumit. Sampai saat ini, analis menggunakan aturan praktis seperti "analisis faktor membutuhkan 5-10 kali lebih banyak subjek daripada variabel." Studi terbaru menunjukkan bahwa ukuran sampel yang diperlukan tergantung pada jumlah faktor, jumlah variabel yang terkait dengan setiap faktor, dan bagaimana baik set faktor menjelaskan varians dalam variabel (Bandalos dan Boehm-Kaufman, 2009). Saya akan mengambil risiko dan mengatakan bahwa jika Anda memiliki beberapa ratus pengamatan, Anda mungkin aman. ''

Referensi:

Bandalos, DL, dan MR Boehm-Kaufman. 2009. "Empat Kesalahpahaman Umum dalam Analisis Faktor Eksplorasi." Dalam Mitos Statistik dan Metodologis dan Legenda Perkotaan, diedit oleh CE Lance dan RJ Vandenberg, 61-87. New York: Routledge.

dari "R in Action" oleh Robert I. Kabacoff, buku yang sangat informatif dengan saran bagus yang mencakup hampir semua tes statistik.

gelar doktor
sumber
2
Sepertinya Anda hanya menyumbat buku dan mengulangi beberapa poin yang dibuat sebelum berdasarkan sumber sekunder atau tersier. Ini sepertinya tidak terlalu berguna. Bisakah Anda setidaknya memberikan referensi lengkap untuk Bandalos dan Boehm-Kaufman, 2009?
Gala