Saya telah mempelajari algoritma untuk pengelompokan data (pembelajaran tanpa pengawasan): EM, dan k-means. Saya terus membaca yang berikut:
k-means adalah varian EM, dengan asumsi bahwa kluster adalah bola.
Adakah yang bisa menjelaskan kalimat di atas? Saya tidak mengerti apa arti bola, dan bagaimana kmeans dan EM berhubungan, karena yang satu mengerjakan penugasan probabilistik dan yang lain melakukannya dengan cara yang deterministik.
Juga, dalam situasi apa lebih baik menggunakan k-means clustering? atau menggunakan pengelompokan EM?
Jawaban:
K berarti
EM
sumber
Tidak ada "algoritma k-means". Ada algoritma MacQueens untuk k-means, algoritma Lloyd / Forgy untuk k-means, metode Hartigan-Wong, ...
Juga tidak ada "algoritma" EM. Ini adalah skema umum berulang kali mengharapkan kemungkinan dan kemudian memaksimalkan model. Varian paling populer dari EM juga dikenal sebagai "Gaussian Mixture Modeling" (GMM), di mana modelnya adalah distribusi Gaussian multivariat.
Satu dapat mempertimbangkan algoritma Lloyds terdiri dari dua langkah:
... mengulangi kedua langkah ini, seperti yang dilakukan oleh Lloyd, menjadikan ini secara efektif contoh dari skema EM umum. Berbeda dengan GMM bahwa:
sumber
Berikut ini sebuah contoh, jika saya melakukan ini dalam mplus, yang mungkin membantu dan memuji jawaban yang lebih komprehensif:
Katakanlah saya memiliki 3 variabel kontinu dan ingin mengidentifikasi cluster berdasarkan ini. Saya akan menentukan model campuran (lebih khusus dalam kasus ini, model profil laten), dengan asumsi independensi bersyarat (variabel yang diamati independen, diberikan keanggotaan cluster) sebagai:
Saya akan menjalankan model ini beberapa kali, setiap kali menentukan jumlah cluster yang berbeda, dan memilih solusi yang paling saya sukai (untuk melakukan ini adalah topik yang luas sendiri).
Untuk kemudian menjalankan k-means, saya akan menentukan model berikut:
Jadi keanggotaan kelas hanya didasarkan pada jarak ke sarana variabel yang diamati. Seperti yang dinyatakan dalam tanggapan lain, varians tidak ada hubungannya dengan itu.
Hal yang menyenangkan tentang melakukan ini di mplus adalah bahwa ini adalah model bersarang, sehingga Anda dapat langsung menguji apakah kendala menghasilkan kecocokan yang lebih buruk atau tidak, selain dapat membandingkan ketidaksesuaian dalam klasifikasi antara kedua metode. Kedua model ini, omong-omong, dapat diestimasi menggunakan algoritma EM, sehingga perbedaannya lebih banyak tentang model.
Jika Anda berpikir dalam ruang 3-D, berarti 3 membuat titik ... dan varians tiga sumbu ellipsoid berjalan melalui titik itu. Jika ketiga varian itu sama, Anda akan mendapatkan sebuah bola.
sumber