Apa perbedaan dalam kesimpulan yang dapat dibuat dari analisis kelas laten (LCA) versus analisis cluster? Apakah benar bahwa LCA mengasumsikan variabel laten yang mendasari yang menimbulkan kelas, sedangkan analisis cluster adalah deskripsi empiris atribut berkorelasi dari algoritma clustering? Tampaknya dalam ilmu sosial, LCA telah mendapatkan popularitas dan dianggap lebih unggul secara metodologis mengingat ia memiliki uji signifikansi chi-square formal, yang tidak dilakukan analisis cluster.
Akan lebih bagus jika contoh dapat ditawarkan dalam bentuk, "LCA akan sesuai untuk ini (tetapi bukan analisis cluster), dan analisis cluster akan sesuai untuk ini (tetapi tidak analisis kelas laten).
Terima kasih! Brian
clustering
latent-variable
latent-class
Brian P
sumber
sumber
inferences
dalam konteks ini dan mengapa hanya perbedaan dalam inferensi yang menarik bagi Anda?Jawaban:
Analisis Kelas Laten sebenarnya Model Campuran Hingga (lihat di sini ). Perbedaan utama antara FMM dan algoritma pengelompokan lainnya adalah bahwa FMM menawarkan kepada Anda pendekatan "model-based clustering" yang menghasilkan kluster menggunakan model probabilistik yang menggambarkan distribusi data Anda. Jadi, alih-alih menemukan kelompok dengan beberapa ukuran jarak yang dipilih secara sewenang-wenang, Anda menggunakan model yang menggambarkan distribusi data Anda dan berdasarkan model ini Anda menilai probabilitas bahwa kasus-kasus tertentu adalah anggota kelas laten tertentu. Jadi Anda bisa mengatakan bahwa itu adalah pendekatan top-down (Anda mulai dengan menggambarkan distribusi data Anda) sementara algoritma pengelompokan lainnya adalah pendekatan yang agak bottom-up (Anda menemukan kesamaan di antara kasus-kasus).
Karena Anda menggunakan model statistik untuk pemilihan model data dan menilai goodness of fit dimungkinkan - bertentangan dengan pengelompokan. Juga, jika Anda berasumsi bahwa ada beberapa proses atau "struktur laten" yang mendasari struktur data Anda maka FMM tampaknya menjadi pilihan yang tepat karena memungkinkan Anda untuk memodelkan struktur laten di belakang data Anda (daripada hanya mencari kesamaan).
Perbedaan lainnya adalah FMM lebih fleksibel daripada clustering. Algoritma cluster hanya melakukan clustering, sementara ada model berbasis FMM dan LCA itu
Untuk lebih banyak contoh, lihat:
dan dokumentasi flexmix dan poLCA paket di R, termasuk kertas-kertas berikut:
sumber
Model kelas laten (atau profil laten, atau lebih umum, model campuran hingga) dapat dianggap sebagai model probablistik untuk pengelompokan (atau klasifikasi tanpa pengawasan). Tujuannya umumnya sama - untuk mengidentifikasi kelompok-kelompok yang homogen dalam populasi yang lebih besar. Saya pikir perbedaan utama antara model kelas laten dan pendekatan algoritmik untuk pengelompokan adalah bahwa yang pertama jelas cocok untuk spekulasi yang lebih teoritis tentang sifat pengelompokan; dan karena model kelas laten adalah probablistik, itu memberikan alternatif tambahan untuk menilai kecocokan model melalui statistik kemungkinan, dan lebih baik menangkap / mempertahankan ketidakpastian dalam klasifikasi.
Anda mungkin menemukan beberapa informasi penting di utas ini , serta jawaban ini pada pos terkait oleh chl.
Ada juga persamaan (pada tingkat konseptual) dengan pertanyaan ini tentang analisis faktor PCA vs, dan ini juga.
sumber
Perbedaannya adalah Analisis Kelas Laten akan menggunakan data tersembunyi (yang biasanya pola asosiasi dalam fitur) untuk menentukan probabilitas fitur di kelas. Kemudian kesimpulan dapat dibuat menggunakan kemungkinan maksimum untuk memisahkan item ke dalam kelas berdasarkan fitur mereka.
Analisis Cluster memplot fitur dan menggunakan algoritma seperti tetangga terdekat, kepadatan, atau hierarki untuk menentukan kelas mana item milik.
Pada dasarnya kesimpulan LCA dapat dianggap sebagai "pola apa yang paling mirip menggunakan probabilitas" dan analisis Cluster akan "apa hal terdekat yang menggunakan jarak".
sumber