Apakah selalu lebih baik untuk mengekstrak lebih banyak faktor ketika ada?

11

Tidak seperti analisis komponen utama, solusi untuk model analisis faktor tidak harus bersarang. Yaitu, beban (misalnya) untuk faktor pertama tidak harus sama ketika hanya faktor pertama yang diekstraksi vs. ketika dua faktor pertama.

Dengan mengingat hal itu, pertimbangkan kasus di mana Anda memiliki satu set variabel manifes yang sangat berkorelasi dan (berdasarkan pengetahuan teoretis konten mereka) harus didorong oleh satu faktor tunggal. Bayangkan bahwa analisis faktor eksplorasi (dengan metrik apa pun yang Anda inginkan: analisis paralel, plot scree, nilai eigen> 1, dll.) Sangat menunjukkan bahwa ada faktor: faktor primer besar, dan faktor sekunder kecil. Anda tertarik menggunakan variabel manifes dan solusi faktor untuk memperkirakan (yaitu, mendapatkan skor faktor) nilai peserta untuk faktor pertama. Dalam skenario ini, apakah akan lebih baik untuk:2

  1. Cocokkan model faktor untuk mengekstraksi hanya faktor, dan dapatkan skor faktor (dll.), Atau1
  2. cocok dengan model faktor untuk mengekstraksi kedua faktor, dapatkan skor faktor untuk faktor-faktor tersebut, tetapi buang / abaikan skor untuk faktor kedua?

Untuk praktik mana yang lebih baik, mengapa? Apakah ada penelitian tentang masalah ini?

gung - Pasang kembali Monica
sumber
Seseorang seharusnya tidak hanya mengandalkan perangkat heuristik pra-analitik ketika memilih sejumlah faktor untuk diekstraksi. Reproduksi korelasi (seberapa jauh lebih baik bila Anda mengekstraksi 2 faktor daripada 1?) Bagaimana residu korelasi didistribusikan dalam solusi ini dan itu? (Mereka biasanya harus seragam atau normal, tidak ada ekor kanan panjang / gemuk). Jika data normal, uji kelayakan dan kesalahan pemuatan dapat dihitung (dengan ekstraksi ML). Berdasarkan semua interpretasi plus itu, orang mungkin memutuskan apakah (1) atau (2) cara lebih baik dalam kasus saat ini.
ttnphns
(lanjutan) Pada akhirnya, hanya sampel baru / FA konfirmasi yang dapat menilai dilema sampai akhir. Namun, satu gagasan. Jika faktor ke-2 benar-benar lemah (beban SS kecil setelah ekstraksi) maka saya tidak mengharapkan dua solusi (dan karenanya skor faktor dari faktor 1) sangat berbeda. (Saya mengatakannya tanpa banyak percaya diri karena saya berkomentar tanpa perombakan. Tetapi, secara logis, jika pesawat faktor siap berubah menjadi garis, hasilnya harus hampir sama dengan hanya garis ...)
ttnphns
Judul Q Is is always better to extract more factors when they exist?tidak terlalu jelas. Itu selalu lebih baik untuk mengekstrak sebanyak yang ada. Underfitting atau overfitting mengubah struktur laten "benar" karena sifat multivarian dan non-bersarang dari analisis yang disebutkan oleh Anda. Masalahnya adalah kita tidak tahu persis berapa banyak faktor yang ada dalam data kita. Dan apakah data ini memiliki sebanyak populasi.
ttnphns
1
@ttnphns, komentar terakhir Anda sampai pada inti pertanyaan, saya kira. Asumsikan metode apa pun yang Anda sukai untuk meyakinkan Anda bahwa sebenarnya ada 2 faktor, 1 di antaranya menyumbang hampir semua varian bersama, hingga & termasuk CFA pada sampel baru. Fit w / 2 diabaikan lebih baik, tetapi lebih baik. Ini adalah contoh palsu & buat demi menyoroti masalah ini. Masalah yang mendasarinya bisa saja menggunakan 2 dari 5.
gung - Reinstate Monica
1
Pertanyaannya adalah, karena solusinya tidak disarangkan, pendekatan mana yang memberi Anda perkiraan yang lebih baik dari skor masing-masing peserta pada variabel laten, & mengapa? Apakah hanya menggunakan 1 bias, apakah berbeda jauh dari nilai sebenarnya, atau keduanya? Apakah itu terjadi karena hanya menggunakan 1 yang "kurang cocok"? Apa artinya itu sebenarnya? Apakah mungkin untuk mengkarakterisasi sifat distorsi? Sebagai alternatif, saya mungkin berharap bahwa mengekstraksi hanya 1 memungkinkan analisis untuk memfokuskan semua derajat kebebasannya untuk mendapatkan yang pertama seakurat mungkin.
gung - Reinstate Monica

Jawaban:

5

Masalah yang Anda maksudkan adalah topik 'perkiraan unidimensionality' ketika membangun instrumen pengujian psikologis, yang telah dibahas dalam literatur sedikit di tahun 80-an. Inspirasi ada di masa lalu karena praktisi ingin menggunakan model teori respon barang tradisional (IRT) untuk item mereka, dan pada saat itu model IRT ini secara eksklusif terbatas untuk mengukur sifat-sifat unidimensional. Jadi, uji multidimensi diharapkan menjadi gangguan yang (mudah-mudahan) dapat dihindari atau diabaikan. Ini juga yang mengarah pada penciptaan teknik analisis paralel dalam analisis faktor (Drasgow dan Parsons, 1983) dan metode DETECT.

Konsekuensi mengabaikan sifat-sifat / faktor-faktor tambahan, selain jelas menyesuaikan model yang salah dengan data (yaitu, mengabaikan informasi tentang potensi model ketidakcocokan; meskipun tentu saja mungkin sepele), adalah bahwa estimasi sifat pada faktor dominan akan menjadi bias dan oleh karena itu kurang efisien. Kesimpulan ini tentu saja tergantung pada bagaimana sifat-sifat sifat tambahan (misalnya, apakah mereka berkorelasi dengan dimensi primer, apakah mereka memiliki beban yang kuat, berapa banyak beban silang yang ada, dll), tetapi tema umumnya adalah perkiraan sekunder untuk mendapatkan skor sifat primer akan kurang efektif. Lihat laporan teknis di sini untuk perbandingan antara model unidimensional yang salah pasang dan model dua faktor; laporan teknis tampaknya persis seperti apa yang Anda cari.

Dari perspektif praktis, menggunakan kriteria informasi dapat membantu ketika memilih model yang paling optimal, serta statistik model-fit secara umum (RMSEA, CFI, dll.) Karena konsekuensi dari mengabaikan informasi multidimensi akan secara negatif mempengaruhi kesesuaian keseluruhan terhadap data. . Tapi tentu saja, kesesuaian model keseluruhan hanya satu indikasi menggunakan model yang tidak sesuai untuk data yang ada; sangat mungkin bahwa bentuk fungsional yang tidak tepat digunakan, seperti non-linearitas atau kurangnya sifat monoton, sehingga masing-masing item / variabel harus selalu diperiksa juga.

Lihat juga :

Drasgow, F. and Parsons, CK (1983). Penerapan Model Teori Item Respon Unidimensional untuk Data Multidimensi. Pengukuran Psikologis Terapan, 7 (2), 189-199.

Drasgow, F. & Lissak, RI (1983). Analisis paralel yang dimodifikasi: Prosedur untuk memeriksa dimensi laten dari respons item skor yang dikotomis. Jurnal Psikologi Terapan, 68, 363-373.

Levent Kirisci, Tse-chi Hsu, dan Lifa Yu (2001). Robustness of Item Parameter Estimasi Program untuk Asumsi Unidimensionality dan Normalitas. Pengukuran Psikologis Terapan, 25 (2), 146-162.

filsuf
sumber
Terima kasih telah menambahkan ini. Sepertinya ini yang saya cari.
gung - Reinstate Monica
Apakah saya mengerti benar bahwa jawaban Anda untuk pertanyaan judul adalah "Ya"?
Amuba mengatakan Reinstate Monica
2
@amoeba secara umum, saya akan mengatakan ya, atau lebih yang menyertakan informasi tambahan harus dilakukan juga atau lebih baik daripada memaksakan unidimensionality yang ketat. Mengabaikan multidimensi yang diketahui bisa sangat bermasalah, tetapi tentu saja sejumlah faktor akan berkontribusi terhadap hal ini. Satu-satunya waktu termasuk informasi tambahan tentang struktur mungkin buruk adalah ketika ukuran sampel terlalu kecil untuk memperkirakan parameter tambahan secara stabil; jadi, bias-efisiensi trade-off. Tapi, jika ukuran sampel tidak banyak masalah maka saya akan mengatakan ada sedikit kehilangan dari memasukkan informasi tambahan (tetapi banyak kehilangan jika tidak).
filsuf
1

Jika Anda benar-benar tidak ingin menggunakan faktor kedua, Anda hanya perlu menggunakan model satu faktor. Tapi saya bingung dengan komentar Anda bahwa pemuatan untuk faktor pertama akan berubah jika Anda menggunakan faktor kedua.

xx

Selanjutnya, untuk penjelasan tentang efek rotasi. Saya tidak pandai menggambar, jadi saya akan mencoba meyakinkan Anda menggunakan kata-kata. Saya akan berasumsi bahwa data Anda (kurang-lebih) normal, sehingga skor faktor juga normal. Jika Anda mengekstrak satu faktor, Anda mendapatkan distribusi normal satu dimensi, jika Anda mengekstrak dua faktor, Anda mendapatkan distribusi normal bivariat.

Kepadatan distribusi bivariat terlihat secara kasar seperti topi, tetapi bentuk pastinya tergantung pada penskalaan serta koefisien korelasi. Jadi mari kita asumsikan bahwa dua komponen masing-masing memiliki varian unit. Dalam kasus yang tidak berkorelasi, Anda mendapatkan sombrero yang bagus, dengan kurva level yang terlihat seperti lingkaran. Ada gambar di sini . Korelasi "meremas" topi, sehingga lebih mirip topi Napoleon .

Mari kita asumsikan bahwa kumpulan data asli Anda memiliki tiga dimensi dan Anda ingin mengekstrak dua faktor dari itu. Mari tetap dengan normalitas. Dalam hal ini kepadatan adalah objek empat dimensi, tetapi kurva levelnya tiga dimensi dan setidaknya dapat divisualisasikan. Dalam kasus yang tidak berkorelasi, kurva level berbentuk bola (seperti bola sepak). Dengan adanya korelasi, kurva level akan kembali terdistorsi, menjadi sepak bola, mungkin yang kurang melebar, sehingga ketebalan di lapisan lebih kecil dari ketebalan di arah lain.

Jika Anda mengekstrak dua faktor menggunakan PCA, Anda benar-benar meratakan sepak bola menjadi elips (dan Anda memproyeksikan setiap titik data ke bidang elips). Faktor pertama yang tidak diputar sesuai dengan sumbu panjang elips, faktor kedua tegak lurus terhadapnya (yaitu, sumbu pendek). Rotasi kemudian memilih sistem koordinat dalam elips ini untuk memenuhi beberapa kriteria praktis lainnya.

Jika Anda mengekstrak hanya satu faktor, rotasi tidak mungkin, tetapi Anda dijamin bahwa faktor PCA yang diekstraksi sesuai dengan sumbu panjang elips.

pengguna3697176
sumber
2
Saya bingung dengan jawaban ini. Pertanyaan itu secara eksplisit menanyakan tentang analisis faktor, yang bertentangan dengan analisis komponen utama.
Amuba mengatakan Reinstate Monica
Ada dua cara untuk mengekstraksi faktor: Komponen utama, atau kemungkinan maksimum. Saya belum melakukan statistik apa pun tentang ini, tetapi saya percaya metode komponen utama lebih sering digunakan.
user3697176
3
Ada banyak metode berbeda, lebih dari dua. Sumbu utama, ML, minres, kuadrat terkecil, dan banyak lagi - saya bukan ahli di sini. PCA mungkin kadang-kadang (jarang!) Juga dianggap sebagai metode ekstraksi faktor, tapi itu cukup ceroboh - seharusnya tidak. Ini cocok dengan model yang berbeda.
Amuba kata Reinstate Monica
Kalimat pertama Anda membahas Q saya. Akan menyenangkan mendengar lebih banyak tentang itu & mengapa itu mungkin benar. Mengenai metode untuk mengekstrak faktor, @amoeba benar: PCA & PAF adalah hal yang umum ketika algoritma lain tidak dikembangkan dengan baik atau sulit untuk diimplementasikan. Mereka sekarang secara luas dianggap lebih rendah. fa()Misalnya R belum menggunakannya selama bertahun-tahun. Metode lain akan menghasilkan solusi non-bersarang, yang mudah diverifikasi dengan perangkat lunak & set data FA. Demi keterbandingan, Anda dapat mempertimbangkan kedua solusi tidak diputar. FWIW, saya kenal dengan ide distribusi MVN bulat & elips.
gung - Reinstate Monica
1
@ung, sebuah komentar. Metode PAF juga memberikan solusi non-bersarang. Ini adalah metode FA bonafide (meskipun berdasarkan PCA sebagai metode) dan, saya kira, masih banyak digunakan.
ttnphns
1

Mengapa Anda tidak menggunakan sesuatu seperti lavaan atau MPlus untuk menjalankan dua model (model unidimensional dan model dua dimensi yang selaras dengan hasil EFA Anda) dan membandingkan indeks kecocokan relatif dan absolut dari model yang berbeda (yaitu, kriteria informasi - AIC dan BIC, RMSEA, SRMR, CFI / TLI)? Perhatikan bahwa jika Anda menyusuri jalan ini, Anda tidak ingin menggunakan PCA untuk PUS, tetapi lebih merupakan faktor utama. Seseorang yang benar-benar peduli dengan pengukuran akan menanamkan CFA ke dalam model persamaan struktural penuh.

Sunting: Pendekatan yang saya minta Anda pertimbangkan adalah lebih lanjut tentang mencari tahu berapa banyak variabel laten yang benar-benar menjelaskan set item. Jika Anda ingin mendapatkan estimasi terbaik dari faktor yang lebih besar, saya akan memilih untuk menggunakan skor faktor dari model CFA dengan kecocokan yang lebih baik, mana pun itu.

Erik Ruzek
sumber