Beberapa makalah ilmiah melaporkan hasil analisis paralel dari analisis faktor poros utama dengan cara yang tidak konsisten dengan pemahaman saya tentang metodologi. Apa yang saya lewatkan? Apakah saya salah atau mereka.
Contoh:
- Data: Kinerja 200 individu manusia telah diamati pada 10 tugas. Untuk setiap individu dan setiap tugas, seseorang memiliki skor kinerja. Pertanyaannya sekarang adalah untuk menentukan berapa banyak faktor yang menyebabkan kinerja pada 10 tugas.
- Metode: analisis paralel untuk menentukan jumlah faktor yang harus dipertahankan dalam analisis faktor sumbu utama.
- Contoh untuk hasil yang dilaporkan: "analisis paralel menunjukkan bahwa hanya faktor dengan nilai eigen 2,21 atau lebih yang harus dipertahankan"
Itu omong kosong, bukan?
Dari kertas asli oleh Horn (1965) dan tutorial seperti Hayton et al. (2004) Saya mengerti bahwa analisis paralel adalah adaptasi dari kriteria Kaiser (nilai eigen> 1) berdasarkan data acak. Namun, adaptasi ini bukan untuk menggantikan cut-off 1 dengan nomor tetap lain tetapi nilai cut-off individu untuk setiap faktor (dan tergantung pada ukuran set data, yaitu 200 kali skor 10). Melihat contoh oleh Horn (1965) dan Hayton et al. (2004) dan output dari fungsi R fa.parallel di psikologi paket dan paralel di nFactorspaket, saya melihat bahwa analisis paralel menghasilkan kurva miring ke bawah dalam plot Scree untuk dibandingkan dengan nilai eigen dari data nyata. Lebih seperti “Pertahankan faktor pertama jika nilainya eigen> 2.21; tambahan mempertahankan yang kedua jika nilainya eigen> 1,65; ... ".
Apakah ada pengaturan yang masuk akal, aliran pemikiran, atau metodologi apa pun yang akan membuat "analisis paralel menunjukkan bahwa hanya faktor dengan nilai eigen 2,21 atau lebih yang harus dipertahankan" dengan benar?
Referensi:
Hayton, JC, Allen, DG, Scarpello, V. (2004). Keputusan retensi faktor dalam analisis faktor eksploratori: tutorial tentang analisis paralel. Metode Penelitian Organisasi, 7 (2): 191-205.
Horn, JL (1965). Dasar pemikiran dan uji untuk sejumlah faktor dalam analisis faktor. Psychometrika, 30 (2): 179-185.
paran
untuk R (pada CRAN) dan untuk Stata (dalam tipe Stata findit paran).Jawaban:
Ada dua cara yang setara untuk mengekspresikan kriteria analisis paralel. Tetapi pertama-tama saya harus menjaga kesalahpahaman yang lazim dalam literatur.
Kesalahpahaman
Yang disebut aturan Kaiser (Kaiser sebenarnya tidak suka aturan jika Anda membaca makalah 1960-nya) nilai eigen lebih besar dari satu dipertahankan untuk analisis komponen utama . Menggunakan apa yang disebut aturan Kaiser, nilai eigen yang lebih besar dari nol dipertahankan untuk analisis faktor utama / anlaysis faktor umum . Kebingungan ini telah muncul selama bertahun-tahun karena beberapa penulis telah ceroboh tentang penggunaan label "analisis faktor" untuk menggambarkan "analisis komponen utama," ketika mereka bukan hal yang sama.
Lihat dengan Lembut Mengklarifikasi Penerapan Analisis Paralel Horn untuk Analisis Komponen Utama versus Analisis Faktor untuk perhitungannya jika Anda perlu meyakinkan tentang hal ini.
Analisis Paralel Kriteria Retensihal jumlah variabel, Anda memiliki beberapa jumlah. Pertama, Anda memiliki nilai eigen yang diamati dari komposisi eigend dari matriks korelasi data Anda,λ1, ... ,λhal . Kedua, Anda memiliki nilai eigen rata-rata dari komposisi eigend dari matriks korelasi "sejumlah besar" dari kumpulan data acak (tidak berkorelasi) yang saman dan hal sebagai milikmu, λ¯r1, ... ,λ¯rhal .
Untuk analisis komponen utama berdasarkan matriks korelasi
Horn juga membingkai contohnya dalam hal "bias sampel" dan memperkirakan bias ini untukqth nilai eigen (untuk analisis komponen utama) sebagai εq=λ¯rq- 1 . Bias ini kemudian dapat digunakan untuk menyesuaikan nilai eigen yang diamati dengan demikian:λadjq=λq-εq
Mengingat jumlah ini, Anda dapat mengekspresikan kriteria retensi untukqth mengamati nilai eigen dari analisis paralel komponen utama dalam dua cara yang setara secara matematis:
Bagaimana dengan analisis faktor utama / analisis faktor umum? Di sini kita harus ingat bahwa bias adalah nilai eigen rata-rata yang sesuai:εq=λ¯rq- 0 =λ¯rq (minus nol karena aturan Kaiser untuk komposisi eigend dari matriks korelasi dengan diagonal yang digantikan oleh masyarakat adalah untuk mempertahankan nilai eigen lebih besar dari nol). Karena itu di siniλadjq=λq-λ¯rq .
Oleh karena itu kriteria retensi untuk analisis faktor utama / analisis faktor umum harus dinyatakan sebagai:
Perhatikan bahwa bentuk kedua dari pengungkapan kriteria retensi konsisten untuk analisis komponen utama dan analisis faktor umum (yaitu karena definisiλadjq perubahan tergantung pada komponen / faktor, tetapi bentuk kedua kriteria retensi tidak dinyatakan dalam istilah λadjq ).
satu hal lagi ...
Kedua analisis komponen utama dan analisis faktor utama / analisis faktor umum dapat didasarkan pada matriks kovarians daripada matriks korelasi. Karena ini mengubah asumsi / definisi tentang varian total dan umum, hanya bentuk kedua dari kriteria retensi yang harus digunakan ketika mendasarkan analisis seseorang pada matriks kovarians.
sumber
Ya, adalah mungkin untuk memiliki nilai 2.21 jika ukuran sampel tidak besar tak terhingga (atau cukup besar ...). Inilah, sebenarnya motivasi di balik pengembangan Analisis Paralel sebagai augmentasi dengan aturan nilai eigen 1.
Saya mengutip Valle 1999 pada jawaban ini dan telah memiringkan huruf miring berbicara langsung ke pertanyaan Anda.
Pemilihan Jumlah Komponen Utama: Varians Kriteria Kesalahan Rekonstruksi dengan Perbandingan dengan Metode Lain † Sergio Valle, Weihua Li, dan, S. Joe Qin * Penelitian Kimia Industri & Rekayasa 1999 38 (11), 4389-4401
sumber
Contoh Anda tentu tidak jelas, tetapi mungkin juga tidak masuk akal. Secara singkat, pertimbangkan kemungkinan bahwa contoh tersebut mendasarkan aturan keputusannya pada nilai eigen dari faktor simulasi pertama yang lebih besar dari faktor nyata dari jumlah faktor yang sama. Berikut contoh lain dir:
Data acak, dan hanya ada tiga variabel, jadi faktor kedua tentu tidak masuk akal, dan itulah yang ditunjukkan oleh analisis paralel. * Hasilnya juga menguatkan apa yang dikatakan @Alexis tentang " Kesalahpahaman ".
Katakanlah saya menafsirkan analisis ini sebagai berikut: "Analisis paralel menunjukkan bahwa hanya faktor [ tidakkomponen] dengan nilai eigen 1.2E-6 atau lebih harus dipertahankan. " Ini masuk akal dalam jumlah tertentu karena itulah nilai dari nilai eigen yang disimulasikan pertama yang lebih besar dari nilai eigen "nyata", dan semua nilai eigen sesudahnya tentu menurun. Ini adalah cara yang canggung untuk melaporkan hasil itu, tetapi setidaknya konsisten dengan alasan bahwa seseorang harus melihat dengan sangat skeptis pada faktor (atau komponen) dengan nilai eigen yang tidak jauh lebih besar dari nilai eigen yang sesuai dari data yang disimulasikan dan tidak berkorelasi. Ini harus menjadi kasus secara konsisten setelah contoh pertama pada plot scree di mana nilai eigen yang disimulasikan melebihi nilai eigen yang sesuai. Dalam contoh di atas, faktor ketiga yang disimulasikan sangat sedikit lebih kecil dari faktor ketiga "nyata",
* Dalam hal ini, R mengatakan, "Analisis paralel menunjukkan bahwa jumlah faktor = 1 dan jumlah komponen = 2," tetapi semoga sebagian besar dari kita tahu untuk tidak mempercayai perangkat lunak kami untuk menafsirkan plot kami untuk kami ... Saya pasti tidak akan mempertahankan komponen kedua hanya karena jauh lebih besar dari komponen simulasi kedua.
sumber