Bagaimana menafsirkan analisis paralel secara benar dalam analisis faktor eksplorasi?

8

Beberapa makalah ilmiah melaporkan hasil analisis paralel dari analisis faktor poros utama dengan cara yang tidak konsisten dengan pemahaman saya tentang metodologi. Apa yang saya lewatkan? Apakah saya salah atau mereka.

Contoh:

  • Data: Kinerja 200 individu manusia telah diamati pada 10 tugas. Untuk setiap individu dan setiap tugas, seseorang memiliki skor kinerja. Pertanyaannya sekarang adalah untuk menentukan berapa banyak faktor yang menyebabkan kinerja pada 10 tugas.
  • Metode: analisis paralel untuk menentukan jumlah faktor yang harus dipertahankan dalam analisis faktor sumbu utama.
  • Contoh untuk hasil yang dilaporkan: "analisis paralel menunjukkan bahwa hanya faktor dengan nilai eigen 2,21 atau lebih yang harus dipertahankan"

Itu omong kosong, bukan?

Dari kertas asli oleh Horn (1965) dan tutorial seperti Hayton et al. (2004) Saya mengerti bahwa analisis paralel adalah adaptasi dari kriteria Kaiser (nilai eigen> 1) berdasarkan data acak. Namun, adaptasi ini bukan untuk menggantikan cut-off 1 dengan nomor tetap lain tetapi nilai cut-off individu untuk setiap faktor (dan tergantung pada ukuran set data, yaitu 200 kali skor 10). Melihat contoh oleh Horn (1965) dan Hayton et al. (2004) dan output dari fungsi R fa.parallel di psikologi paket dan paralel di nFactorspaket, saya melihat bahwa analisis paralel menghasilkan kurva miring ke bawah dalam plot Scree untuk dibandingkan dengan nilai eigen dari data nyata. Lebih seperti “Pertahankan faktor pertama jika nilainya eigen> 2.21; tambahan mempertahankan yang kedua jika nilainya eigen> 1,65; ... ".

Apakah ada pengaturan yang masuk akal, aliran pemikiran, atau metodologi apa pun yang akan membuat "analisis paralel menunjukkan bahwa hanya faktor dengan nilai eigen 2,21 atau lebih yang harus dipertahankan" dengan benar?

Referensi:

Hayton, JC, Allen, DG, Scarpello, V. (2004). Keputusan retensi faktor dalam analisis faktor eksploratori: tutorial tentang analisis paralel. Metode Penelitian Organisasi, 7 (2): 191-205.

Horn, JL (1965). Dasar pemikiran dan uji untuk sejumlah faktor dalam analisis faktor. Psychometrika, 30 (2): 179-185.

jhg
sumber
1
Secara kebetulan, Hayton et al. Menyatakan bahwa bentuk distribusi dari data yang tidak berkorelasi digunakan untuk menghasilkan nilai eigen rata-rata untuk memperkirakan "bias pengambilan sampel" secara kritis diperiksa dan ditolak di Dinno, A. (2009). Menjelajahi Sensitivitas Analisis Paralel Klakson terhadap Bentuk Distribusi Data Simulasi. Penelitian Perilaku Multivariat , 44 (3): 362-388.
Alexis
1
Juga, secara kebetulan melihat paket analisis paralel saya paranuntuk R (pada CRAN) dan untuk Stata (dalam tipe Stata findit paran).
Alexis

Jawaban:

9

Ada dua cara yang setara untuk mengekspresikan kriteria analisis paralel. Tetapi pertama-tama saya harus menjaga kesalahpahaman yang lazim dalam literatur.

Kesalahpahaman
Yang disebut aturan Kaiser (Kaiser sebenarnya tidak suka aturan jika Anda membaca makalah 1960-nya) nilai eigen lebih besar dari satu dipertahankan untuk analisis komponen utama . Menggunakan apa yang disebut aturan Kaiser, nilai eigen yang lebih besar dari nol dipertahankan untuk analisis faktor utama / anlaysis faktor umum . Kebingungan ini telah muncul selama bertahun-tahun karena beberapa penulis telah ceroboh tentang penggunaan label "analisis faktor" untuk menggambarkan "analisis komponen utama," ketika mereka bukan hal yang sama.

Lihat dengan Lembut Mengklarifikasi Penerapan Analisis Paralel Horn untuk Analisis Komponen Utama versus Analisis Faktor untuk perhitungannya jika Anda perlu meyakinkan tentang hal ini.

Analisis Paralel Kriteria Retensi
Untuk analisis komponen utama berdasarkan matriks korelasipjumlah variabel, Anda memiliki beberapa jumlah. Pertama, Anda memiliki nilai eigen yang diamati dari komposisi eigend dari matriks korelasi data Anda,λ1,,λp. Kedua, Anda memiliki nilai eigen rata-rata dari komposisi eigend dari matriks korelasi "sejumlah besar" dari kumpulan data acak (tidak berkorelasi) yang saman dan p sebagai milikmu, λ¯1r,,λ¯pr.

Horn juga membingkai contohnya dalam hal "bias sampel" dan memperkirakan bias ini untuk qth nilai eigen (untuk analisis komponen utama) sebagai εq=λ¯qr1. Bias ini kemudian dapat digunakan untuk menyesuaikan nilai eigen yang diamati dengan demikian:λqadj=λqεq

Mengingat jumlah ini, Anda dapat mengekspresikan kriteria retensi untuk qth mengamati nilai eigen dari analisis paralel komponen utama dalam dua cara yang setara secara matematis:

λqadj{>1Retain.1Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

Bagaimana dengan analisis faktor utama / analisis faktor umum? Di sini kita harus ingat bahwa bias adalah nilai eigen rata-rata yang sesuai:εq=λ¯qr0=λ¯qr(minus nol karena aturan Kaiser untuk komposisi eigend dari matriks korelasi dengan diagonal yang digantikan oleh masyarakat adalah untuk mempertahankan nilai eigen lebih besar dari nol). Karena itu di siniλqadj=λqλ¯qr.

Oleh karena itu kriteria retensi untuk analisis faktor utama / analisis faktor umum harus dinyatakan sebagai:

λqadj{>0Retain.0Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

Perhatikan bahwa bentuk kedua dari pengungkapan kriteria retensi konsisten untuk analisis komponen utama dan analisis faktor umum (yaitu karena definisi λqadj perubahan tergantung pada komponen / faktor, tetapi bentuk kedua kriteria retensi tidak dinyatakan dalam istilah λqadj).

satu hal lagi ...
Kedua analisis komponen utama dan analisis faktor utama / analisis faktor umum dapat didasarkan pada matriks kovarians daripada matriks korelasi. Karena ini mengubah asumsi / definisi tentang varian total dan umum, hanya bentuk kedua dari kriteria retensi yang harus digunakan ketika mendasarkan analisis seseorang pada matriks kovarians.

Alexis
sumber
1
Bagus! Bagian penting pertama bagi saya adalah bahwa kriteria retensi Anda gunakanλ¯qr, yaitu nilai batas tertentu untuk setiap faktor q. Kalimat yang dipertanyakan "analisis paralel menunjukkan bahwa hanya faktor dengan nilai eigen 2,21 atau lebih yang harus dipertahankan" sama dengan q λ¯qr=2.21. Ini tidak mungkin. Untuk annalysis komponen utama ditambahkan vektorp, untuk analisis faktor untuk <p. Satu punλ¯r terlepas dari q hanya ada untuk data yang sepenuhnya tidak berkorelasi (n) dan kemudian 0 (fa) atau 1 (pca). Benar?
jhg
Saya telah membaca makalah Anda "Klarifikasi Lembut ..." sebelumnya dan sangat menyukainya. Dalam posting ini Anda menyatakan "menggunakan apa yang disebut aturan Kaiser nilai eigen lebih besar dari nol dipertahankan untuk analisis faktor utama / faktor umum anlaysis" dan di koran ada komentar yang sama. Dari matematika, ini intuitif dan masuk akal total - Saya bertanya-tanya mengapa saya tidak menemukan ini sebelumnya. Apakah ada makalah / buku lain tentang ini, atau "Klarifikasi Lembut ..." yang pertama menjelaskan dengan lembut bahwa nol adalah referensi yang sesuai untuk analisis faktor utama (jika seseorang menggunakan kriteria Kaiser sama sekali)?
jhg
2
Mungkin: mereka hanya berarti bahwa nilai eigen terkecil yang diamati lebih besar dariλ¯r(yaitu yang mereka pertahankan) adalah 2.21. Ada satu peringatan yang ingin saya tambahkan: bentuk pertama dari kriteria retensi harus direvisi ketika menggunakan matriks kovarians,Σ. Asumsi saat menggunakanΣ adalah bahwa total variance (PCA) sama dengan jumlah dari varian yang diamati dari data, dan >1 diterjemahkan menjadi >trace(Σ)/p: angka ini mungkin 2.21.
Alexis
@jhg Kaiser menulis "Batas bawah universal terkuat secara universal mengharuskan kami menemukan jumlah akar laten positif dari matriks korelasi yang diamati dengan kelipatan kuadrat di diagonal." Tetapi Guttman juga menulis tentang matriks korelasi ketika menggambarkan persatuan sebagai batas kritis nilai eigen R (bukan R-keunikan) (bawah halaman 154 ke atas halaman 155), meskipun ia tidak secara eksplisit menggambarkan logika untuk R -Uniquenesses, ia melambaikannya di awal halaman 150.
Alexis
4

Ya, adalah mungkin untuk memiliki nilai 2.21 jika ukuran sampel tidak besar tak terhingga (atau cukup besar ...). Inilah, sebenarnya motivasi di balik pengembangan Analisis Paralel sebagai augmentasi dengan aturan nilai eigen 1.

Saya mengutip Valle 1999 pada jawaban ini dan telah memiringkan huruf miring berbicara langsung ke pertanyaan Anda.

Pemilihan Jumlah Komponen Utama: Varians Kriteria Kesalahan Rekonstruksi dengan Perbandingan dengan Metode Lain † Sergio Valle, Weihua Li, dan, S. Joe Qin * Penelitian Kimia Industri & Rekayasa 1999 38 (11), 4389-4401

Analisis Paralel . Metode PA pada dasarnya membangun model PCA untuk dua matriks: satu adalah matriks data asli dan yang lainnya adalah matriks data tidak berkorelasi dengan ukuran yang sama dengan matriks asli. Metode ini awalnya dikembangkan oleh Horn untuk meningkatkan kinerja tes Scree. Ketika nilai eigen untuk setiap matriks diplot dalam gambar yang sama, semua nilai di atas persimpangan mewakili informasi proses dan nilai-nilai di bawah persimpangan dianggap noise. Karena persimpangan ini, metode analisis paralel tidak ambigu dalam pemilihan jumlah PC. Untuk sejumlah besar sampel, nilai eigen untuk matriks korelasi variabel tidak berkorelasi adalah 1. Dalam hal ini, metode PA identik dengan metode AE. Namun, ketika sampel dihasilkan dengan jumlah sampel hingga, nilai eigen awal melebihi 1, sedangkan nilai eigen akhir berada di bawah 1. Itulah sebabnya Horn menyarankan untuk membandingkan matriks korelasi nilai eigen untuk variabel tidak berkorelasi dengan variabel dari matriks data nyata berdasarkan ukuran sampel yang sama.

Kematian14
sumber
Pertanyaannya adalah apakah nilai tunggal 2,21 bisa masuk akal. Sebagai bagian miring dalam kutipan Anda dari Valle et al. menunjukkan dengan sejumlah pengamatan terbatas, akan (menurut pemahaman saya) selalu ada serangkaian penurunan nilai eigen. Jadi, untuk setiap faktor dari data asli, ada nilai eigen yang berbeda dari analisis paralel untuk membandingkan. Ketika ukuran sampel menjadi besar (beberapa ribu individu), nilai eigen bertemu menjadi 1. Dalam hal ini saya bisa memahami satu perbandingan tunggal, tetapi hanya pada level 1.
jhg
Bukankah 2.21 di sini berarti untuk dataset ini dan metode yang digunakan (sehingga kombinasi) 2.21 adalah cut-off di bawah ini yang nilai eigennya terlalu kecil? Saya tidak yakin apa yang Anda maksud dengan "nilai tunggal." Apakah yang Anda maksud sebagai aturan umum, seperti aturan eigenvalue 1? Cutoff berbeda untuk setiap analisis paralel biasanya.
Deathkill14
Saya mengerti bahwa analisis paralel tergantung pada jumlah variabel (dalam contoh saya di atas "10 tugas") dan jumlah pengamatan (200 dalam contoh). Dengan demikian, ini sangat spesifik untuk dataset individual dan tidak ada aturan umum seperti "jangan gunakan nilai eigen 1, gunakan nilai eigen 2.21". Itu pasti omong kosong. Tetapi untuk contoh spesifik dengan 200 pengamatan pada 10 variabel dan, dengan demikian, 1 hingga 10 faktor. Mungkinkah analisis paralel menyarankan untuk mempertahankan faktor dengan nilai eigen lebih besar 2,21 independen dari apakah faktor tersebut adalah yang pertama, kedua, ketiga, ...?
jhg
Gagasan nilai cut-off (katakanlah 1 atau 2.21) adalah bahwa di bawah nilai itu variasi dalam suatu faktor pada dasarnya adalah noise (pada dasarnya noise karena itu adalah nilai eigen dasar dari matriks acak). Biasanya, faktor diurutkan dari nilai eigen tertinggi ke terendah, tetapi itu mungkin penting terutama untuk interpretabilitas. Jadi "sepertiga pertama pertama" belum tentu diperbaiki di atas batu. Bagaimanapun, faktor dengan nilai eigen lebih besar dari 2,21 dalam kasus Anda diasumsikan mengandung lebih banyak info daripada noise. Simpan.
Deathkill14
2

Contoh Anda tentu tidak jelas, tetapi mungkin juga tidak masuk akal. Secara singkat, pertimbangkan kemungkinan bahwa contoh tersebut mendasarkan aturan keputusannya pada nilai eigen dari faktor simulasi pertama yang lebih besar dari faktor nyata dari jumlah faktor yang sama. Berikut contoh lain di:

d8a=data.frame(y=rbinom(99,1,.5),x=c(rnorm(50),rep(0,49)),z=rep(c(1,0),c(50,49)))
require(psych);fa.parallel(d8a)

Data acak, dan hanya ada tiga variabel, jadi faktor kedua tentu tidak masuk akal, dan itulah yang ditunjukkan oleh analisis paralel. * Hasilnya juga menguatkan apa yang dikatakan @Alexis tentang " Kesalahpahaman ".

Katakanlah saya menafsirkan analisis ini sebagai berikut: "Analisis paralel menunjukkan bahwa hanya faktor [ tidakkomponen] dengan nilai eigen 1.2E-6 atau lebih harus dipertahankan. " Ini masuk akal dalam jumlah tertentu karena itulah nilai dari nilai eigen yang disimulasikan pertama yang lebih besar dari nilai eigen "nyata", dan semua nilai eigen sesudahnya tentu menurun. Ini adalah cara yang canggung untuk melaporkan hasil itu, tetapi setidaknya konsisten dengan alasan bahwa seseorang harus melihat dengan sangat skeptis pada faktor (atau komponen) dengan nilai eigen yang tidak jauh lebih besar dari nilai eigen yang sesuai dari data yang disimulasikan dan tidak berkorelasi. Ini harus menjadi kasus secara konsisten setelah contoh pertama pada plot scree di mana nilai eigen yang disimulasikan melebihi nilai eigen yang sesuai. Dalam contoh di atas, faktor ketiga yang disimulasikan sangat sedikit lebih kecil dari faktor ketiga "nyata",


* Dalam hal ini, R mengatakan, "Analisis paralel menunjukkan bahwa jumlah faktor = 1 dan jumlah komponen = 2," tetapi semoga sebagian besar dari kita tahu untuk tidak mempercayai perangkat lunak kami untuk menafsirkan plot kami untuk kami ... Saya pasti tidak akan mempertahankan komponen kedua hanya karena jauh lebih besar dari komponen simulasi kedua.

Nick Stauner
sumber
1
Hebat, ide kreatif cara menafsirkan kalimat. Saya menganggapnya lebih dari sebentar. Bukan itu masalahnya.
jhg
Oy. Kedengarannya seperti artikel aneh yang Anda kerjakan ...
Nick Stauner