Pemilihan model Mclust

Solusi ditemukan:

Jadi, untuk menyatakan kembali pertanyaan, mengapa Mclustfungsi default ke model dengan nilai BIC tertinggi sebagai model "terbaik"?

Pertanyaan bagus! Biarkan saya memberi Anda jawaban panjang lebar untuk ini.

TL; DR : Nilai BIC adalah perkiraan untuk kemungkinan terintegrasi (tidak maksimal), dan Anda menginginkan model dengan kemungkinan terintegrasi terbesar (faktor Bayes) sehingga Anda memilih model dengan BIC terbesar.

Jawaban panjang : Tujuan penggunaan pengelompokan berbasis model daripada pendekatan pengelompokan berbasis heuristik seperti k-means dan pengelompokan hierarkis (aglomeratif) adalah untuk memberikan pendekatan yang lebih formal dan intuitif untuk membandingkan dan memilih model klaster yang sesuai untuk data Anda.

Mclust menggunakan teknik clustering berdasarkan model probabilitas, model campuran Gaussian. Menggunakan model probabilitas memungkinkan untuk pengembangan pendekatan berbasis model untuk membandingkan berbagai model dan ukuran cluster. Lihat * Metode Klasifikasi Berbasis Model: Menggunakan Perangkat Lunak mclust dalam Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ) untuk rincian lebih lanjut.

Seperti disebutkan di atas, penulis menyatakan bahwa model "terbaik" adalah model dengan nilai BIC terbesar. Berikut adalah contoh lain dari Enhanced Model-Based Clustering, Estimasi Density, dan Perangkat Lunak Analisis Diskriminan: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Kriteria Informasi Baysian atau BIC (?) Adalah nilai kemungkinan loglikel yang dimaksimalkan dengan penalti pada jumlah parameter dalam model, dan memungkinkan perbandingan model dengan parameterisasi yang berbeda dan / atau jumlah cluster yang berbeda. Secara umum semakin besar nilai BIC, semakin kuat bukti untuk model dan jumlah cluster (lihat, misalnya Fraley dan Raftery 2002a).

Pemilihan Model : Sekarang setelah ada model probabilitas yang terpasang pada kluster, Anda dapat menggunakan alat yang lebih canggih untuk membandingkan beberapa model kluster menggunakan pemilihan model Bayesian melalui faktor Bayes.

Dalam makalah mereka, Berapa Banyak Cluster? Metode Clustering Yang Mana? Jawaban Melalui Analisis Cluster Berbasis Model ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Faktor Bayes adalah peluang posterior untuk satu model terhadap model yang lain dengan asumsi tidak ada yang disukai secara apriori. Banfield dan Raftery [2] menggunakan perkiraan yang diturunkan secara heuristik untuk dua kali faktor Bayes, yang disebut 'AWE', untuk menentukan jumlah cluster dalam pengelompokan hierarkis berdasarkan pada kemungkinan klasifikasi. Ketika EM digunakan untuk menemukan kemungkinan campuran maksimum, perkiraan yang lebih andal untuk dua kali faktor Bay bay yang disebut BIC (Schwarz [32]) berlaku:

$2 \log(p(x | M)) + constant \approx 2 l_M (x, \hat{\theta}) - m_m log(n) \equiv BIC$

di mana adalah (terintegrasi) kemungkinan data untuk model M, adalah log-kemungkinan campuran maixmized untuk model dan m_M adalah jumlah parameter independen diperkirakan dalam model. Jumlah cluster tidak dianggap sebagai parameter independen untuk keperluan komputasi BIC. Jika masing-masing model sama likeli , maka adalah sebanding dengan probabilitas posterior bahwa data sesuai dengan model . Dengan demikian, semakin besar nilai BIC, semakin kuat bukti untuk model tersebut. $p(x |M)$ $l_M(x, \hat{\theta})$ $a \ priori$ $p(x|M)$ $M$

Jadi, secara ringkas, BIC tidak boleh diminimalkan. Orang yang menggunakan pendekatan pengelompokan berbasis model ini harus mencari model yang memaksimalkan BIC karena mendekati faktor Bayes dengan kemungkinan terintegrasi maksimum.

Pernyataan terakhir itu juga memiliki referensi:

Banfield, JD dan Raftery, AE (1993) Gaussian dan non-Gaussian clustering berbasis model. Biometrik, 49, 803- 821.

EDIT : Berdasarkan pertukaran email,

Sebagai catatan tambahan, selalu periksa bagaimana BIC didefinisikan. Kadang-kadang, misalnya dalam sebagian besar konteks regresi (di mana secara tradisional statistik diminimalkan untuk estimasi parameter, misalnya jumlah residu kuadrat, penyimpangan, dll) BIC dihitung sebagai -2 * loglik + npar * log (n), yaitu kebalikan dari apa yang digunakan dalam mclust. Jelas, dalam hal ini BIC harus diminimalkan.

Definisi umum BIC adalah ; mclust tidak termasuk komponen negatif. $BIC = -2 \times ln(L(\theta | x)) + k \times ln(n)$

Jon
sumber

Tidak yakin ke versi mana Mclust korespondensi email tanggapan ini terkait. Versi 4 dari Mclust menggunakan komponen negatif dari BIC dan karenanya harus dimaksimalkan. Semoga bermanfaat bagi orang yang mencoba mencari tahu apakah maksimisasi atau minimalisasi harus dilakukan.

Rasika

Terima kasih telah menunjukkannya, saya akan memperbarui pertanyaan ini sehingga masuk akal. Saya mungkin akan melihat dokumentasi juga untuk melihat apakah ada mengapa mereka memutuskan untuk melakukan perubahan ini setelah bertahun-tahun

Jon

Pemilihan model Mclust

Jawaban: