Saya harus mengurangi jumlah variabel untuk melakukan analisis cluster. Variabel saya sangat berkorelasi, jadi saya berpikir untuk melakukan Analisis Faktor PCA (analisis komponen utama). Namun, jika saya menggunakan skor yang dihasilkan, cluster saya tidak terlalu benar (dibandingkan dengan klasifikasi sebelumnya dalam literatur).
Pertanyaan:
Dapatkah saya menggunakan matriks rotasi untuk memilih variabel dengan beban terbesar untuk setiap komponen / faktor dan hanya menggunakan variabel ini untuk pengelompokan saya?
Referensi bibliografi apa pun juga akan sangat membantu.
Memperbarui:
Beberapa klarifikasi:
Tujuan saya: Saya harus menjalankan analisis cluster dengan algoritma dua langkah oleh SPSS, tetapi variabel saya tidak independen, jadi saya berpikir untuk membuang beberapa di antaranya.
Dataset saya: Saya sedang mengerjakan 15 parameter skalar (variabel saya) dari 100.000 kasus. Beberapa variabel sangat berkorelasi ( Pearson)
Keraguan saya: Karena saya hanya perlu variabel independen, saya berpikir untuk menjalankan Analisis Komponen Utama (maaf: saya salah berbicara tentang Analisis Faktor dalam pertanyaan awal saya, kesalahan saya) dan hanya memilih variabel dengan pemuatan terbesar untuk setiap komponen. Saya tahu bahwa proses PCA menyajikan beberapa langkah sewenang-wenang, tetapi saya menemukan bahwa pemilihan ini sebenarnya mirip dengan " metode B4 " yang diusulkan oleh IT Jolliffe (1972 & 2002) untuk memilih variabel dan disarankan juga oleh JR King & DA Jackson pada 1999 .
Jadi saya berpikir untuk memilih dengan cara ini beberapa sub-kelompok variabel independen. Saya kemudian akan menggunakan grup untuk menjalankan analisis kluster yang berbeda dan saya akan membandingkan hasilnya.
Jawaban:
Saya akan, seperti kebiasaan saya, mundur selangkah dan bertanya apa yang sebenarnya Anda coba lakukan. Analisis faktor dirancang untuk menemukan variabel laten. Jika Anda ingin menemukan variabel laten dan mengelompokkannya, maka apa yang Anda lakukan benar. Tapi Anda mengatakan Anda hanya ingin mengurangi jumlah variabel - yang menunjukkan analisis komponen utama.
Namun, dengan salah satu dari itu, Anda harus menginterpretasikan analisis kluster pada variabel baru, dan variabel-variabel baru itu hanyalah jumlah terbobot dari yang lama.
Berapa banyak variabel yang Anda punya? Seberapa berkorelasi mereka? Jika ada terlalu banyak, dan mereka berkorelasi sangat kuat, maka Anda bisa mencari semua korelasi pada beberapa angka yang sangat tinggi, dan menghapus satu variabel secara acak dari setiap pasangan. Ini mengurangi jumlah variabel dan membiarkan variabel apa adanya.
Biarkan saya juga menggemakan @StasK tentang perlunya melakukan ini sama sekali, dan @ rolando2 tentang kegunaan menemukan sesuatu yang berbeda dari apa yang telah ditemukan sebelumnya. Seperti profesor favorit saya di sekolah pascasarjana dulu mengatakan "Jika Anda tidak terkejut, Anda belum belajar apa-apa".
sumber
Cara untuk melakukan analisis faktor dan analisis kluster pada saat yang sama adalah melalui model campuran persamaan struktural. Dalam model ini, Anda mendalilkan bahwa ada model terpisah (dalam hal ini, model faktor) untuk setiap kluster. Anda perlu memiliki analisis rata-rata bersama dengan analisis kovarians, dan lebih mementingkan identifikasi dalam analisis faktor vanila biasa. Ide yang didekati dari sisi SEM muncul dalam Jedidi et. Al. (1997) , dan dari sisi pengelompokan, dalam pengelompokan berbasis model oleh Adrian Raftery . Jenis analisis ini, tampaknya, tersedia di Mplus .
sumber
Saya tidak berpikir itu masalah "kebenaran" murni dan sederhana, tetapi apakah itu akan mencapai apa yang Anda ingin lakukan. Pendekatan yang Anda gambarkan akan berakhir dengan pengelompokan berdasarkan faktor-faktor tertentu, dengan cara yang dipermudah, karena Anda hanya akan menggunakan satu indikator untuk mewakili masing-masing faktor. Setiap indikator tersebut dianggap sebagai posisi tidak sempurna untuk faktor laten yang mendasarinya. Itu satu masalah.
Masalah lain adalah bahwa analisis faktor itu sendiri, seperti yang saya (dan banyak orang lain) telah kisahkan , penuh dengan keputusan subyektif yang melibatkan cara menangani data yang hilang, jumlah faktor untuk diekstraksi, cara mengekstrak, apakah dan bagaimana cara memutar, dan sebagainya. di. Jadi mungkin masih jauh dari jelas bahwa faktor-faktor yang mungkin telah Anda ekstrak dengan cepat, perangkat lunak-standar (seperti yang saya pikir Anda telah tersirat) adalah yang "terbaik" dalam arti apa pun.
Maka, secara keseluruhan, Anda mungkin telah menggunakan versi sederhana dari faktor-faktor yang sendiri dapat diperdebatkan sebagai cara terbaik untuk mengkarakterisasi tema yang mendasari data Anda. Saya tidak akan berharap bahwa cluster yang dihasilkan dari variabel input seperti itu akan menjadi yang paling informatif atau paling berbeda.
Pada catatan lain, tampaknya menarik bahwa Anda menganggapnya sebagai masalah memiliki keanggotaan / profil klaster yang tidak sesuai dengan apa yang telah ditemukan oleh peneliti lain. Kadang-kadang temuan yang membingungkan bisa sangat sehat!
sumber
Apa yang bisa terjadi dalam kasus Anda adalah bahwa faktor-faktor yang diekstraksi dalam Analisis Faktor memiliki kompensasi beban positif dan negatif dari variabel asli. Ini akan mengurangi diferensiabilitas yang merupakan tujuan pengelompokan.
Bisakah Anda memecah setiap faktor yang diekstraksi menjadi 2 - satu hanya memiliki muatan positif, yang lain hanya memuat negatif?
Ganti skor faktor untuk setiap kasus untuk setiap faktor dengan skor positif dan negatif dan cobalah mengelompokkan pada set skor baru ini.
Harap sertakan satu baris jika ini cocok untuk Anda.
sumber
Anda bisa memindai nilai-nilai tinggi dan juga nilai-nilai rendah dan meninggalkan semua variabel dalam faktor-faktor. Dengan cara ini, tidak perlu memotong faktor-faktornya. Jika Anda membagi Faktor 1 (katakanlah) dengan cara tertentu berdasarkan tanda-tanda memuat, dalam Faktor 2, tanda-tanda mungkin sangat berbeda. Apakah Anda kemudian memotong Faktor 2 berbeda dari Faktor 1? Ini sepertinya membingungkan.
sumber