Apakah ada analisis Faktor atau PCA untuk data ordinal atau biner?

28

Saya telah menyelesaikan analisis komponen utama (PCA), analisis faktor eksploratori (EFA), dan analisis faktor konfirmatori (CFA), memperlakukan data dengan skala likert (respons 5 tingkat: tidak ada, sedikit, beberapa, ..) sebagai berkelanjutan variabel. Kemudian, menggunakan Lavaan, saya mengulangi CFA mendefinisikan variabel sebagai kategori.

Saya ingin tahu jenis analisis apa yang cocok untuk dan akan setara dengan PCA dan PUS ketika data bersifat ordinal . Dan saat biner .

Saya juga akan menghargai saran untuk paket atau perangkat lunak tertentu yang dapat dengan mudah diterapkan untuk analisis tersebut.

pengguna116948
sumber

Jawaban:

38

PCA dan analisis Faktor tradisional (tradisional) memerlukan data skala-level (interval atau rasio). Seringkali data peringkat tipe likert diasumsikan sebagai tingkat skala, karena data tersebut lebih mudah untuk dianalisis. Dan keputusan kadang-kadang dibenarkan secara statistik, terutama ketika jumlah kategori yang dipesan lebih besar dari 5 atau 6. (Meskipun secara logis murni pertanyaan tentang tipe data dan jumlah level skala berbeda.)

Bagaimana jika Anda lebih suka memperlakukan skala likert politin sebagai ordinal? Atau Anda memiliki data dikotomis? Apakah mungkin untuk melakukan analisis faktor eksplorasi atau PCA untuk mereka?

Saat ini ada tiga pendekatan utama untuk melakukan FA (termasuk PCA sebagai kasus khusus) pada variabel ordinal atau biner variabel (baca juga akun ini tentang kasus data biner, dan pertimbangan ini tentang apa yang mungkin dilakukan dengan skala ordinal).

  1. Pendekatan penskalaan optimal (sekumpulan aplikasi ). Disebut juga Categorical PCA (CatPCA) atau nonlinear FA. Dalam CatPCA, variabel ordinal ditransformasikan secara monoton ("terkuantifikasi") menjadi versi interval "mendasar" di bawah tujuan untuk memaksimalkan varian yang dijelaskan oleh jumlah komponen utama yang diekstraksi dari data interval tersebut. Yang membuat metode ini berorientasi pada tujuan (daripada teori) dan penting untuk memutuskan jumlah komponen utama terlebih dahulu. Jika FA yang sebenarnya diperlukan alih-alih PCA, FA linier biasa kemudian secara alami dapat dilakukan pada output variabel yang diubah dari CatPCA. Dengan variabel biner, CatPCA (sayangnya?) Berperilaku seperti PCA biasa, yaitu, seolah-olah mereka adalah variabel kontinu. CatPCA juga menerima variabel nominal dan campuran jenis variabel apa pun (baik).

  2. Pendekatan variabel dasar yang disimpulkan . Juga dikenal sebagai PCA / FA yang dilakukan pada korelasi tetrachoric (untuk data biner) atau polikorik (untuk data ordinal). Distribusi normal diasumsikan untuk variabel kontinu yang mendasari (kemudian binned) untuk setiap variabel manifes. Kemudian FA klasik diterapkan untuk menganalisis korelasi tersebut di atas. Pendekatan dengan mudah memungkinkan untuk campuran data interval, ordinal, biner. Salah satu kelemahan dari pendekatan ini adalah bahwa - pada kesimpulan korelasi - ia tidak memiliki petunjuk untuk distribusi multivariat dari variabel-variabel yang mendasarinya, - dapat "memahami" pada sebagian besar distribusi bivariat, sehingga mendasarkan dirinya sendiri bukan pada informasi lengkap.

  3. Pendekatan teori respon barang (IRT). Kadang-kadang juga disebut FA logistik atau analisis sifat laten . Model yang sangat dekat dengan binary logit (untuk data biner) atau model odds log proporsional (untuk data ordinal) diterapkan. Algoritma tidak terikat dengan penguraian matriks korelasi, sehingga agak jauh dari FA tradisional, masih merupakan FA kategoris yang bonafid. "Parameter diskriminasi" berhubungan erat dengan pemuatan FA, tetapi "kesulitan" menggantikan gagasan "keunikan" FA. Kepastian pemasangan IRT dengan cepat berkurang ketika jumlah faktor tumbuh, yang merupakan sisi bermasalah dari pendekatan ini. IRT dapat diperluas dengan caranya sendiri untuk menggabungkan interval campuran + biner + variabel ordinal dan mungkin nominal.

Skor faktor dalam pendekatan (2) dan (3) lebih sulit untuk diperkirakan daripada skor faktor dalam FA klasik atau dalam pendekatan (1). Namun, beberapa metode memang ada (metode aposteriori yang diharapkan atau maksimum, metode kemungkinan maksimum, dll.).

Asumsi model analisis faktor terutama sama dalam tiga pendekatan seperti pada FA tradisional. Pendekatan (1) tersedia dalam R, SPSS, SAS (menurut saya). Pendekatan (2) dan (3) diimplementasikan sebagian besar dalam paket variabel laten khusus - Mplus, LISREL, EQS.

  1. Pendekatan polinomial. Itu belum dikembangkan secara penuh. Komponen utama dapat dimodelkan sebagai kombinasi variabel polinomial ( menggunakan polinomial adalah cara populer untuk memodelkan efek nonlinear dari regresi ordinal.). Juga, kategori yang diamati pada gilirannya dapat dimodelkan sebagai manifestasi diskrit dari kombinasi polinomial faktor laten.

  2. Ada bidang teknik nonlinear pengurangan dimensi yang berkembang ; beberapa dari mereka dapat diterapkan atau diadopsi untuk bekerja dengan data kategorikal (terutama biner atau setelah binarizing menjadi dataset jarang dimensi tinggi).

  3. r

Lihat juga di ini , ini , ini , ini , ini , ini , ini , ini .

ttnphns
sumber
3
Jawaban fenomenal. Satu-satunya hal yang ditambahkan adalah bahwa saya pikir Anda dapat menggunakan paket psik di R untuk menerapkan pendekatan dalam (2) (lihat opsi "cor" untuk fungsi fa) dan (3) (lihat fungsi irt.fa dan irt.poly ) ke berbagai derajat, dan paket LTM juga dapat digunakan agar sesuai dengan sejumlah model IRT.
jsakaluk
1
Mereka mungkin berbeda begitu. Saya melakukan beberapa kali pembuatan inventaris / validasi oleh "nonlinear FA" (CatPCA-then-EFA) dan telah menemukan hasil yang lebih baik daripada dari biasanya (linear) EFA. Prosedur yang saya adopsi mirip dengan FA biasa, satu-satunya perbedaan adalah bahwa untuk setiap analisis - setiap set item yang saya coba dan setiap jumlah faktor yang saya ekstrak - saya lakukan CatPCA-lalu (pada variabel-variabel yang dikuantifikasi) -EFA pas de deux .
ttnphns
@ jsakaluk, Terima kasih banyak atas informasinya. (Saya bukan pengguna R jadi hanya kurang tahu kapasitas fenomenalnya).
ttnphns
Terima kasih atas tanggapan menyeluruhnya. @ttnphns Saya menghabiskan sebagian besar hari ini mencoba mengimplementasikan CATPCA di SPSS 23. Saya berhasil menemukan dua tutorial (Linting & Kooij (2012) & unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) gagal menjawab beberapa pertanyaan saya sendiri. Bisakah Anda menyarankan outlet yang baik untuk mengatasi beberapa pertanyaan teknis? Terima kasih lagi.
user116948
1
@ user116948, Jika Anda kesulitan memahami bagaimana cara menggunakannya di SPSS: Pertama-tama, cari dan baca studi kasus CATPCA di submenu Studi Kasus SPSS di menu Bantuan. Kedua, ramban semua pertanyaan tentang CATPCA yang sudah diajukan di situs ini. Ketiga: jika Anda masih memiliki pertanyaan - tanyakan sebagai pertanyaan baru di situs. Jangan khawatir: jika "terlalu teknis", maka mungkin akan ditransfer ke StackOveflow. Keempat: pilih komunitas SPSS untuk mengajukan pertanyaan Anda di sana (SPSSXL adalah yang terbaik). Tepuk tangan untukmu.
ttnphns