Saya ingin mengurangi dimensi sistem orde tinggi dan menangkap sebagian besar kovarian pada bidang 2 dimensi atau 1 dimensi yang lebih disukai. Saya mengerti ini bisa dilakukan melalui analisis komponen utama, dan saya telah menggunakan PCA dalam banyak skenario. Namun, saya belum pernah menggunakannya dengan tipe data boolean, dan saya bertanya-tanya apakah itu berarti melakukan PCA dengan set ini. Jadi misalnya, berpura-pura saya memiliki metrik kualitatif atau deskriptif, dan saya menetapkan "1" jika metrik itu valid untuk dimensi itu, dan "0" jika tidak (data biner). Jadi misalnya, berpura-puralah Anda mencoba membandingkan Tujuh Kurcaci di Putri Salju. Kita punya:
Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy and Happy, dan Anda ingin mengaturnya berdasarkan kualitas, dan melakukannya seperti:
Jadi misalnya Bashful tidak toleran laktosa dan bukan pada daftar kehormatan. Ini murni matriks hipotetis, dan matriks saya yang sebenarnya akan memiliki lebih banyak kolom deskriptif. Pertanyaan saya adalah, apakah masih pantas untuk melakukan PCA pada matriks ini sebagai sarana untuk menemukan kesamaan antara individu?
sumber
a means of finding the similarity between individuals
. Tetapi tugas ini adalah untuk analisis Cluster, bukan PCA.Jawaban:
Saya ingin menyarankan Anda teknik yang relatif baru untuk ekstraksi struktur otomatis dari data variabel kategori (ini termasuk biner). Metode ini disebut CorEx dari Greg van Steeg dari University of Southern California. Idenya adalah untuk menggunakan gagasan Korelasi Total berdasarkan langkah-langkah entropi. Ini menarik karena kesederhanaannya dan tidak ada penyetelan sejumlah besar hyperparameter.
Makalah tentang representasi hirarkis (yang terbaru, dibangun di atas langkah-langkah sebelumnya). http://arxiv.org/pdf/1410.7404.pdf
sumber
Anda juga dapat menggunakan Analisis Korespondensi Berganda (MCA), yang merupakan perpanjangan dari analisis komponen utama ketika variabel yang dianalisis adalah kategorikal dan bukan kuantitatif (yang merupakan kasus di sini dengan variabel biner Anda). Lihat misalnya Husson et al. (2010) , atau Abdi dan Valentin (2007) . Paket R yang sangat baik untuk melakukan MCA (dan pengelompokan hierarkis pada PC) adalah FactoMineR .
sumber
inflation of the feature space
dan mengapa hal itu terjadi di PCA dan bukan di MCA.inflation of the feature space
fenomena itu. Tampaknya mulai berlaku saat beralih dari CA ke MCA, tetapi bukan merupakan masalah yang melekat pada PCA. Saya akan menghapus jawaban saya ketika Anda telah membaca komentar ini. Terima kasih telah membuat saya menyadarinya.Jika Anda menganggap PCA sebagai teknik eksplorasi untuk memberi Anda cara memvisualisasikan hubungan antar variabel (dan menurut saya ini adalah satu-satunya cara untuk memikirkannya) maka ya, tidak ada alasan mengapa Anda tidak dapat memasukkan biner variabel. Sebagai contoh, ini adalah biplot dari data Anda
Tampaknya cukup bermanfaat. Misalnya, Anda dapat melihat bahwa Doc dan Bashful sangat mirip; bahwa SDM agak tidak seperti ketiga variabel lainnya; Sleepy dan Sneezy sangat berbeda, dll.
sumber