Saya memiliki dataset dengan sejumlah besar jawaban Ya / Tidak. Dapatkah saya menggunakan komponen utama (PCA) atau analisis reduksi data lainnya (seperti analisis faktor) untuk tipe data ini? Mohon saran bagaimana saya melakukan ini menggunakan SPSS.
30
Jawaban:
Pertanyaan variabel dikotomis atau biner dalam PCA atau analisis Faktor adalah abadi. Ada pendapat kutub dari "itu ilegal" menjadi "tidak apa-apa", melalui sesuatu seperti "Anda dapat melakukannya tetapi Anda akan mendapatkan terlalu banyak faktor". Pendapat saya sendiri saat ini adalah sebagai berikut. Pertama, saya menganggap bahwa variabel yang diamati biner adalah descrete dan tidak layak memperlakukannya dengan cara apa pun sebagai kontinu. Bisakah variabel diskrit ini menimbulkan faktor atau komponen utama?
Analisis faktor (FA). Faktor menurut definisi adalah laten kontinu yang memuat variabel yang dapat diamati ( 1 , 2 ). Akibatnya, yang terakhir tidak bisa tidak kontinu (atau interval, lebih praktis berbicara) ketika cukup dimuat oleh faktor. Juga, FA, karena sifat penyesalannya yang linier, mengasumsikan bahwa sisanya - tidak dimuat - bagian, disebut uniqness, adalah kontinu baik, dan karena itu datang bahwa variabel yang dapat diamati harus kontinu bahkan ketika dimuat sedikit. Dengan demikian, variabel biner tidak dapat membuat undang-undang sendiri dalam FA. Namun, setidaknya ada dua cara: (A) Asumsikan dikotomi sebagai variabel kasar yang terus menerus mendasari dan lakukan FA dengan korelasi tetrachoric - bukan Pearson -; (B) Asumsikan bahwa faktor memuat variabel dikotomis tidak linier tetapi secara logistik dan melakukan Analisis Sifat Laten (alias Item Response Theory) alih-alih linier FA. Baca lebih lanjut .
Analisis Komponen Utama (PCA). Meskipun memiliki banyak kesamaan dengan FA, PCA bukanlah pemodelan tetapi hanya metode meringkas. Komponen tidak memuat variabel dalam pengertian konseptual yang sama dengan faktor memuat variabel. Dalam PCA, komponen memuat variabel dan variabel memuat komponen. Simetri ini karena PCA semata-mata hanyalah rotasi variabel-sumbu di ruang angkasa. Variabel biner tidak akan memberikan kontinuitas sejati untuk komponen dengan dirinya sendiri - karena mereka tidak kontinu, tetapi kontinuitas semu dapat disediakan oleh sudut rotasi PCA yang dapat muncul. Jadi dalam PCA, dan berbeda dengan FA, Anda bisa mendapatkan dimensi yang tampaknya berkelanjutan (sumbu yang diputar) dengan variabel biner murni (sumbu yang tidak diputar) - sudut adalah penyebab kontinuitas1 .
Masih bisa diperdebatkan apakah sah untuk menghitung mean untuk variabel biner (jika Anda menganggapnya sebagai fitur yang benar-benar kategorikal). Biasanya PCA dilakukan pada kovariansi atau korelasi, yang menyiratkan menempatkan titik pivot rotasi PCA dalam (1) centroid (rata-rata aritmatika). Untuk data biner, masuk akal untuk mempertimbangkan, selain itu, yang lain dan lebih alami untuk lokasi data biner untuk titik pivot tersebut, atau asal: (2) titik tanpa atribut2
(0,0)
(jika Anda memperlakukan variabel Anda sebagai biner "ordinal" ), ( 3) Titik medoid L1 atau Manhattan, (4) titik mode multivariat .Beberapa pertanyaan terkait tentang FA atau PCA data biner: 1 , 2 , 3 , 4 , 5 , 6 . Jawaban di sana berpotensi mengungkapkan pendapat yang berbeda dari pendapat saya.
Contoh data biner (hanya kasus sederhana dari dua variabel):
Scatterplots di bawah ini menampilkan titik data yang sedikit jittered (untuk membuat frekuensi) dan menunjukkan sumbu komponen utama sebagai garis diagonal yang mengandung skor komponen [skor tersebut, menurut klaim saya adalah nilai kontinu semu ]. Plot kiri pada setiap gambar menunjukkan PCA berdasarkan penyimpangan "mentah" dari asal, sedangkan plot kanan menunjukkan PCA berdasarkan penyimpangan skala (diagonal = unit) darinya.
1) PCA tradisional menempatkan
(0,0)
asal ke dalam mean data (centroid). Untuk data biner, berarti bukan nilai data yang mungkin. Namun, itu adalah pusat gravitasi fisik. PCA memaksimalkan variabilitas tentang hal itu.(Jangan lupa juga, bahwa dalam mean dan varians biner varians secara ketat diikat bersama, mereka, sehingga, untuk mengatakan, "satu hal." Standarisasi / penskalaan variabel biner, yaitu, melakukan PCA berdasarkan korelasi bukan kovarian, di contoh saat ini, akan berarti bahwa Anda menghambat variabel yang lebih seimbang - memiliki varian yang lebih besar - untuk mempengaruhi PCA lebih besar daripada variabel yang lebih condong.)
2) Anda dapat melakukan PCA dalam data noncentered, yaitu membiarkan asal
(0,0)
pergi ke lokasi(0,0)
. Ini adalah PCA pada MSCP (X'X/n
) matrix atau pada cosine similarity matrix. PCA memaksimalkan protuberability dari status tanpa atribut.3) Anda dapat membiarkan titik asal
(0,0)
terletak pada titik data dari jumlah terkecil jarak Manhattan dari titik tersebut ke semua titik data lainnya - L1 medoid. Medoid, umumnya, dipahami sebagai titik data paling "representatif" atau "khas". Oleh karena itu, PCA akan memaksimalkan atipikalitas (selain frekuensi). Dalam data kami, L1 medoid jatuh pada(1,0)
koordinat asli.4) Atau letakkan titik asal
(0,0)
pada koordinat data di mana frekuensi adalah mode multivarian tertinggi. Ini adalah(1,1)
sel data dalam contoh kita. PCA akan memaksimalkan (didorong oleh) mode junior.5) Dalam tubuh jawaban disebutkan bahwa korelasi tetrachoric adalah hal yang baik untuk melakukan analisis faktor, untuk variabel biner. Hal yang sama dapat dikatakan tentang PCA: Anda dapat melakukan PCA berdasarkan korelasi tetrachoric . Namun, itu berarti Anda mengandaikan variabel kontinu yang mendasarinya dalam variabel biner.
sumber