PCA dan analisis Faktor tradisional (tradisional) memerlukan data skala-level (interval atau rasio). Seringkali data peringkat tipe likert diasumsikan sebagai tingkat skala, karena data tersebut lebih mudah untuk dianalisis. Dan keputusan kadang-kadang dibenarkan secara statistik, terutama ketika jumlah kategori yang dipesan lebih besar dari 5 atau 6. (Meskipun secara logis murni pertanyaan tentang tipe data dan jumlah level skala berbeda.)
Bagaimana jika Anda lebih suka memperlakukan skala likert politin sebagai ordinal? Atau Anda memiliki data dikotomis? Apakah mungkin untuk melakukan analisis faktor eksplorasi atau PCA untuk mereka?
Saat ini ada tiga pendekatan utama untuk melakukan FA (termasuk PCA sebagai kasus khusus) pada variabel ordinal atau biner variabel (baca juga akun ini tentang kasus data biner, dan pertimbangan ini tentang apa yang mungkin dilakukan dengan skala ordinal).
Pendekatan penskalaan optimal (sekumpulan aplikasi ). Disebut juga Categorical PCA (CatPCA) atau nonlinear FA. Dalam CatPCA, variabel ordinal ditransformasikan secara monoton ("terkuantifikasi") menjadi versi interval "mendasar" di bawah tujuan untuk memaksimalkan varian yang dijelaskan oleh jumlah komponen utama yang diekstraksi dari data interval tersebut. Yang membuat metode ini berorientasi pada tujuan (daripada teori) dan penting untuk memutuskan jumlah komponen utama terlebih dahulu. Jika FA yang sebenarnya diperlukan alih-alih PCA, FA linier biasa kemudian secara alami dapat dilakukan pada output variabel yang diubah dari CatPCA. Dengan variabel biner, CatPCA (sayangnya?) Berperilaku seperti PCA biasa, yaitu, seolah-olah mereka adalah variabel kontinu. CatPCA juga menerima variabel nominal dan campuran jenis variabel apa pun (baik).
Pendekatan variabel dasar yang disimpulkan . Juga dikenal sebagai PCA / FA yang dilakukan pada korelasi tetrachoric (untuk data biner) atau polikorik (untuk data ordinal). Distribusi normal diasumsikan untuk variabel kontinu yang mendasari (kemudian binned) untuk setiap variabel manifes. Kemudian FA klasik diterapkan untuk menganalisis korelasi tersebut di atas. Pendekatan dengan mudah memungkinkan untuk campuran data interval, ordinal, biner. Salah satu kelemahan dari pendekatan ini adalah bahwa - pada kesimpulan korelasi - ia tidak memiliki petunjuk untuk distribusi multivariat dari variabel-variabel yang mendasarinya, - dapat "memahami" pada sebagian besar distribusi bivariat, sehingga mendasarkan dirinya sendiri bukan pada informasi lengkap.
Pendekatan teori respon barang (IRT). Kadang-kadang juga disebut FA logistik atau analisis sifat laten . Model yang sangat dekat dengan binary logit (untuk data biner) atau model odds log proporsional (untuk data ordinal) diterapkan. Algoritma tidak terikat dengan penguraian matriks korelasi, sehingga agak jauh dari FA tradisional, masih merupakan FA kategoris yang bonafid. "Parameter diskriminasi" berhubungan erat dengan pemuatan FA, tetapi "kesulitan" menggantikan gagasan "keunikan" FA. Kepastian pemasangan IRT dengan cepat berkurang ketika jumlah faktor tumbuh, yang merupakan sisi bermasalah dari pendekatan ini. IRT dapat diperluas dengan caranya sendiri untuk menggabungkan interval campuran + biner + variabel ordinal dan mungkin nominal.
Skor faktor dalam pendekatan (2) dan (3) lebih sulit untuk diperkirakan daripada skor faktor dalam FA klasik atau dalam pendekatan (1). Namun, beberapa metode memang ada (metode aposteriori yang diharapkan atau maksimum, metode kemungkinan maksimum, dll.).
Asumsi model analisis faktor terutama sama dalam tiga pendekatan seperti pada FA tradisional. Pendekatan (1) tersedia dalam R, SPSS, SAS (menurut saya). Pendekatan (2) dan (3) diimplementasikan sebagian besar dalam paket variabel laten khusus - Mplus, LISREL, EQS.
Pendekatan polinomial. Itu belum dikembangkan secara penuh. Komponen utama dapat dimodelkan sebagai kombinasi variabel polinomial ( menggunakan polinomial adalah cara populer untuk memodelkan efek nonlinear dari regresi ordinal.). Juga, kategori yang diamati pada gilirannya dapat dimodelkan sebagai manifestasi diskrit dari kombinasi polinomial faktor laten.
Ada bidang teknik nonlinear pengurangan dimensi yang berkembang ; beberapa dari mereka dapat diterapkan atau diadopsi untuk bekerja dengan data kategorikal (terutama biner atau setelah binarizing menjadi dataset jarang dimensi tinggi).
r
Lihat juga di ini , ini , ini , ini , ini , ini , ini , ini .