Analisis Kelas Laten vs. Analisis Cluster - perbedaan inferensi?

30

Apa perbedaan dalam kesimpulan yang dapat dibuat dari analisis kelas laten (LCA) versus analisis cluster? Apakah benar bahwa LCA mengasumsikan variabel laten yang mendasari yang menimbulkan kelas, sedangkan analisis cluster adalah deskripsi empiris atribut berkorelasi dari algoritma clustering? Tampaknya dalam ilmu sosial, LCA telah mendapatkan popularitas dan dianggap lebih unggul secara metodologis mengingat ia memiliki uji signifikansi chi-square formal, yang tidak dilakukan analisis cluster.

Akan lebih bagus jika contoh dapat ditawarkan dalam bentuk, "LCA akan sesuai untuk ini (tetapi bukan analisis cluster), dan analisis cluster akan sesuai untuk ini (tetapi tidak analisis kelas laten).

Terima kasih! Brian

Brian P
sumber
1
Apa yang Anda sebut inferencesdalam konteks ini dan mengapa hanya perbedaan dalam inferensi yang menarik bagi Anda?
ttnphns
1
@ttnphns Dengan kesimpulan, maksud saya interpretasi substantif dari hasil. Saya tidak yakin tentang bagian terakhir pertanyaan Anda tentang minat saya pada "hanya perbedaan dalam kesimpulan?" Saya tidak tertarik dengan eksekusi algoritma mereka masing-masing atau matematika yang mendasarinya. Saya tertarik pada bagaimana hasil akan ditafsirkan.
Brian P

Jawaban:

27

Analisis Kelas Laten sebenarnya Model Campuran Hingga (lihat di sini ). Perbedaan utama antara FMM dan algoritma pengelompokan lainnya adalah bahwa FMM menawarkan kepada Anda pendekatan "model-based clustering" yang menghasilkan kluster menggunakan model probabilistik yang menggambarkan distribusi data Anda. Jadi, alih-alih menemukan kelompok dengan beberapa ukuran jarak yang dipilih secara sewenang-wenang, Anda menggunakan model yang menggambarkan distribusi data Anda dan berdasarkan model ini Anda menilai probabilitas bahwa kasus-kasus tertentu adalah anggota kelas laten tertentu. Jadi Anda bisa mengatakan bahwa itu adalah pendekatan top-down (Anda mulai dengan menggambarkan distribusi data Anda) sementara algoritma pengelompokan lainnya adalah pendekatan yang agak bottom-up (Anda menemukan kesamaan di antara kasus-kasus).

Karena Anda menggunakan model statistik untuk pemilihan model data dan menilai goodness of fit dimungkinkan - bertentangan dengan pengelompokan. Juga, jika Anda berasumsi bahwa ada beberapa proses atau "struktur laten" yang mendasari struktur data Anda maka FMM tampaknya menjadi pilihan yang tepat karena memungkinkan Anda untuk memodelkan struktur laten di belakang data Anda (daripada hanya mencari kesamaan).

Perbedaan lainnya adalah FMM lebih fleksibel daripada clustering. Algoritma cluster hanya melakukan clustering, sementara ada model berbasis FMM dan LCA itu

  • memungkinkan Anda untuk melakukan konfirmasi, analisis antar-kelompok,
  • menggabungkan model Item Response Theory (dan lainnya) dengan LCA,
  • termasuk kovariat untuk memprediksi keanggotaan kelas laten individu,
  • dan / atau bahkan model regresi dalam-klaster dalam regresi kelas laten ,
  • memungkinkan Anda untuk memodelkan perubahan dari waktu ke waktu dalam struktur data Anda dll.

Untuk lebih banyak contoh, lihat:

Hagenaars JA & McCutcheon, AL (2009). Analisis Kelas Laten Terapan. Cambridge University Press.

dan dokumentasi flexmix dan poLCA paket di R, termasuk kertas-kertas berikut:

Linzer, DA, & Lewis, JB (2011). poLCA: Paket R untuk analisis kelas laten variabel polytomous. Jurnal Perangkat Lunak Statistik, 42 ​​(10), 1-29.

Leisch, F. (2004). Flexmix: Kerangka umum untuk model campuran hingga dan regresi kaca laten dalam R. Journal of Statistical Software, 11 (8), 1-18.

Grün, B., & Leisch, F. (2008). FlexMix versi 2: campuran hingga dengan variabel bersamaan dan parameter yang bervariasi dan konstan . Jurnal Perangkat Lunak Statistik, 28 (4), 1-35.

Tim
sumber
3

Model kelas laten (atau profil laten, atau lebih umum, model campuran hingga) dapat dianggap sebagai model probablistik untuk pengelompokan (atau klasifikasi tanpa pengawasan). Tujuannya umumnya sama - untuk mengidentifikasi kelompok-kelompok yang homogen dalam populasi yang lebih besar. Saya pikir perbedaan utama antara model kelas laten dan pendekatan algoritmik untuk pengelompokan adalah bahwa yang pertama jelas cocok untuk spekulasi yang lebih teoritis tentang sifat pengelompokan; dan karena model kelas laten adalah probablistik, itu memberikan alternatif tambahan untuk menilai kecocokan model melalui statistik kemungkinan, dan lebih baik menangkap / mempertahankan ketidakpastian dalam klasifikasi.

Anda mungkin menemukan beberapa informasi penting di utas ini , serta jawaban ini pada pos terkait oleh chl.

Ada juga persamaan (pada tingkat konseptual) dengan pertanyaan ini tentang analisis faktor PCA vs, dan ini juga.

DL Dahly
sumber
2

Perbedaannya adalah Analisis Kelas Laten akan menggunakan data tersembunyi (yang biasanya pola asosiasi dalam fitur) untuk menentukan probabilitas fitur di kelas. Kemudian kesimpulan dapat dibuat menggunakan kemungkinan maksimum untuk memisahkan item ke dalam kelas berdasarkan fitur mereka.

Analisis Cluster memplot fitur dan menggunakan algoritma seperti tetangga terdekat, kepadatan, atau hierarki untuk menentukan kelas mana item milik.

Pada dasarnya kesimpulan LCA dapat dianggap sebagai "pola apa yang paling mirip menggunakan probabilitas" dan analisis Cluster akan "apa hal terdekat yang menggunakan jarak".

ccsv
sumber
Bisakah Anda mengklarifikasi apa "merujuk" dalam pernyataan tentang analisis cluster? Apakah ini 'fitur' terdekat berdasarkan ukuran jarak?
Brian P
benda akan menjadi objek objek atau data apa pun yang Anda input dengan parameter fitur.
ccsv