Tidak seperti analisis komponen utama, solusi untuk model analisis faktor tidak harus bersarang. Yaitu, beban (misalnya) untuk faktor pertama tidak harus sama ketika hanya faktor pertama yang diekstraksi vs. ketika dua faktor pertama.
Dengan mengingat hal itu, pertimbangkan kasus di mana Anda memiliki satu set variabel manifes yang sangat berkorelasi dan (berdasarkan pengetahuan teoretis konten mereka) harus didorong oleh satu faktor tunggal. Bayangkan bahwa analisis faktor eksplorasi (dengan metrik apa pun yang Anda inginkan: analisis paralel, plot scree, nilai eigen> 1, dll.) Sangat menunjukkan bahwa ada faktor: faktor primer besar, dan faktor sekunder kecil. Anda tertarik menggunakan variabel manifes dan solusi faktor untuk memperkirakan (yaitu, mendapatkan skor faktor) nilai peserta untuk faktor pertama. Dalam skenario ini, apakah akan lebih baik untuk:
- Cocokkan model faktor untuk mengekstraksi hanya faktor, dan dapatkan skor faktor (dll.), Atau
- cocok dengan model faktor untuk mengekstraksi kedua faktor, dapatkan skor faktor untuk faktor-faktor tersebut, tetapi buang / abaikan skor untuk faktor kedua?
Untuk praktik mana yang lebih baik, mengapa? Apakah ada penelitian tentang masalah ini?
sumber
Is is always better to extract more factors when they exist?
tidak terlalu jelas. Itu selalu lebih baik untuk mengekstrak sebanyak yang ada. Underfitting atau overfitting mengubah struktur laten "benar" karena sifat multivarian dan non-bersarang dari analisis yang disebutkan oleh Anda. Masalahnya adalah kita tidak tahu persis berapa banyak faktor yang ada dalam data kita. Dan apakah data ini memiliki sebanyak populasi.Jawaban:
Masalah yang Anda maksudkan adalah topik 'perkiraan unidimensionality' ketika membangun instrumen pengujian psikologis, yang telah dibahas dalam literatur sedikit di tahun 80-an. Inspirasi ada di masa lalu karena praktisi ingin menggunakan model teori respon barang tradisional (IRT) untuk item mereka, dan pada saat itu model IRT ini secara eksklusif terbatas untuk mengukur sifat-sifat unidimensional. Jadi, uji multidimensi diharapkan menjadi gangguan yang (mudah-mudahan) dapat dihindari atau diabaikan. Ini juga yang mengarah pada penciptaan teknik analisis paralel dalam analisis faktor (Drasgow dan Parsons, 1983) dan metode DETECT.
Konsekuensi mengabaikan sifat-sifat / faktor-faktor tambahan, selain jelas menyesuaikan model yang salah dengan data (yaitu, mengabaikan informasi tentang potensi model ketidakcocokan; meskipun tentu saja mungkin sepele), adalah bahwa estimasi sifat pada faktor dominan akan menjadi bias dan oleh karena itu kurang efisien. Kesimpulan ini tentu saja tergantung pada bagaimana sifat-sifat sifat tambahan (misalnya, apakah mereka berkorelasi dengan dimensi primer, apakah mereka memiliki beban yang kuat, berapa banyak beban silang yang ada, dll), tetapi tema umumnya adalah perkiraan sekunder untuk mendapatkan skor sifat primer akan kurang efektif. Lihat laporan teknis di sini untuk perbandingan antara model unidimensional yang salah pasang dan model dua faktor; laporan teknis tampaknya persis seperti apa yang Anda cari.
Dari perspektif praktis, menggunakan kriteria informasi dapat membantu ketika memilih model yang paling optimal, serta statistik model-fit secara umum (RMSEA, CFI, dll.) Karena konsekuensi dari mengabaikan informasi multidimensi akan secara negatif mempengaruhi kesesuaian keseluruhan terhadap data. . Tapi tentu saja, kesesuaian model keseluruhan hanya satu indikasi menggunakan model yang tidak sesuai untuk data yang ada; sangat mungkin bahwa bentuk fungsional yang tidak tepat digunakan, seperti non-linearitas atau kurangnya sifat monoton, sehingga masing-masing item / variabel harus selalu diperiksa juga.
Lihat juga :
Drasgow, F. and Parsons, CK (1983). Penerapan Model Teori Item Respon Unidimensional untuk Data Multidimensi. Pengukuran Psikologis Terapan, 7 (2), 189-199.
Drasgow, F. & Lissak, RI (1983). Analisis paralel yang dimodifikasi: Prosedur untuk memeriksa dimensi laten dari respons item skor yang dikotomis. Jurnal Psikologi Terapan, 68, 363-373.
Levent Kirisci, Tse-chi Hsu, dan Lifa Yu (2001). Robustness of Item Parameter Estimasi Program untuk Asumsi Unidimensionality dan Normalitas. Pengukuran Psikologis Terapan, 25 (2), 146-162.
sumber
Jika Anda benar-benar tidak ingin menggunakan faktor kedua, Anda hanya perlu menggunakan model satu faktor. Tapi saya bingung dengan komentar Anda bahwa pemuatan untuk faktor pertama akan berubah jika Anda menggunakan faktor kedua.
Selanjutnya, untuk penjelasan tentang efek rotasi. Saya tidak pandai menggambar, jadi saya akan mencoba meyakinkan Anda menggunakan kata-kata. Saya akan berasumsi bahwa data Anda (kurang-lebih) normal, sehingga skor faktor juga normal. Jika Anda mengekstrak satu faktor, Anda mendapatkan distribusi normal satu dimensi, jika Anda mengekstrak dua faktor, Anda mendapatkan distribusi normal bivariat.
Kepadatan distribusi bivariat terlihat secara kasar seperti topi, tetapi bentuk pastinya tergantung pada penskalaan serta koefisien korelasi. Jadi mari kita asumsikan bahwa dua komponen masing-masing memiliki varian unit. Dalam kasus yang tidak berkorelasi, Anda mendapatkan sombrero yang bagus, dengan kurva level yang terlihat seperti lingkaran. Ada gambar di sini . Korelasi "meremas" topi, sehingga lebih mirip topi Napoleon .
Mari kita asumsikan bahwa kumpulan data asli Anda memiliki tiga dimensi dan Anda ingin mengekstrak dua faktor dari itu. Mari tetap dengan normalitas. Dalam hal ini kepadatan adalah objek empat dimensi, tetapi kurva levelnya tiga dimensi dan setidaknya dapat divisualisasikan. Dalam kasus yang tidak berkorelasi, kurva level berbentuk bola (seperti bola sepak). Dengan adanya korelasi, kurva level akan kembali terdistorsi, menjadi sepak bola, mungkin yang kurang melebar, sehingga ketebalan di lapisan lebih kecil dari ketebalan di arah lain.
Jika Anda mengekstrak dua faktor menggunakan PCA, Anda benar-benar meratakan sepak bola menjadi elips (dan Anda memproyeksikan setiap titik data ke bidang elips). Faktor pertama yang tidak diputar sesuai dengan sumbu panjang elips, faktor kedua tegak lurus terhadapnya (yaitu, sumbu pendek). Rotasi kemudian memilih sistem koordinat dalam elips ini untuk memenuhi beberapa kriteria praktis lainnya.
Jika Anda mengekstrak hanya satu faktor, rotasi tidak mungkin, tetapi Anda dijamin bahwa faktor PCA yang diekstraksi sesuai dengan sumbu panjang elips.
sumber
fa()
Misalnya R belum menggunakannya selama bertahun-tahun. Metode lain akan menghasilkan solusi non-bersarang, yang mudah diverifikasi dengan perangkat lunak & set data FA. Demi keterbandingan, Anda dapat mempertimbangkan kedua solusi tidak diputar. FWIW, saya kenal dengan ide distribusi MVN bulat & elips.Mengapa Anda tidak menggunakan sesuatu seperti lavaan atau MPlus untuk menjalankan dua model (model unidimensional dan model dua dimensi yang selaras dengan hasil EFA Anda) dan membandingkan indeks kecocokan relatif dan absolut dari model yang berbeda (yaitu, kriteria informasi - AIC dan BIC, RMSEA, SRMR, CFI / TLI)? Perhatikan bahwa jika Anda menyusuri jalan ini, Anda tidak ingin menggunakan PCA untuk PUS, tetapi lebih merupakan faktor utama. Seseorang yang benar-benar peduli dengan pengukuran akan menanamkan CFA ke dalam model persamaan struktural penuh.
Sunting: Pendekatan yang saya minta Anda pertimbangkan adalah lebih lanjut tentang mencari tahu berapa banyak variabel laten yang benar-benar menjelaskan set item. Jika Anda ingin mendapatkan estimasi terbaik dari faktor yang lebih besar, saya akan memilih untuk menggunakan skor faktor dari model CFA dengan kecocokan yang lebih baik, mana pun itu.
sumber