Pemilihan model Mclust

11

Paket R mclustmenggunakan BIC sebagai kriteria untuk pemilihan model klaster. Dari pemahaman saya, model dengan BIC terendah harus dipilih daripada model lain (jika Anda hanya peduli tentang BIC). Namun, ketika nilai BIC semuanya negatif, Mclustfungsi tersebut default ke model dengan nilai BIC tertinggi. Pemahaman saya secara keseluruhan dari berbagai uji coba adalah yang mclustmengidentifikasi model "terbaik" sebagai model yang memiliki .max{BICi}

Saya mencoba memahami mengapa penulis membuat keputusan ini. Itu diilustrasikan di situs CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Juga, para penulis mclustpaket membuat catatan ini dalam makalah mereka Metode Klasifikasi Berbasis Model: Menggunakan Perangkat Lunak mclust dalam Chemometrics pada halaman 5.

Model 'terbaik' dianggap sebagai model dengan BIC tertinggi di antara model-model yang dipasang.

Adakah yang bisa menjelaskan masalah ini? Jika BIC yang lebih rendah selalu lebih baik, mengapa penulis tidak memilih model dengan BIC terendah tetapi model dengan BIC absolut terkecil? Jika memungkinkan, berikan referensi.

Jon
sumber

Jawaban:

10

Solusi ditemukan:

Jadi, untuk menyatakan kembali pertanyaan, mengapa Mclustfungsi default ke model dengan nilai BIC tertinggi sebagai model "terbaik"?

Pertanyaan bagus! Biarkan saya memberi Anda jawaban panjang lebar untuk ini.

TL; DR : Nilai BIC adalah perkiraan untuk kemungkinan terintegrasi (tidak maksimal), dan Anda menginginkan model dengan kemungkinan terintegrasi terbesar (faktor Bayes) sehingga Anda memilih model dengan BIC terbesar.

Jawaban panjang : Tujuan penggunaan pengelompokan berbasis model daripada pendekatan pengelompokan berbasis heuristik seperti k-means dan pengelompokan hierarkis (aglomeratif) adalah untuk memberikan pendekatan yang lebih formal dan intuitif untuk membandingkan dan memilih model klaster yang sesuai untuk data Anda.

Mclust menggunakan teknik clustering berdasarkan model probabilitas, model campuran Gaussian. Menggunakan model probabilitas memungkinkan untuk pengembangan pendekatan berbasis model untuk membandingkan berbagai model dan ukuran cluster. Lihat * Metode Klasifikasi Berbasis Model: Menggunakan Perangkat Lunak mclust dalam Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ) untuk rincian lebih lanjut.

Seperti disebutkan di atas, penulis menyatakan bahwa model "terbaik" adalah model dengan nilai BIC terbesar. Berikut adalah contoh lain dari Enhanced Model-Based Clustering, Estimasi Density, dan Perangkat Lunak Analisis Diskriminan: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Kriteria Informasi Baysian atau BIC (?) Adalah nilai kemungkinan loglikel yang dimaksimalkan dengan penalti pada jumlah parameter dalam model, dan memungkinkan perbandingan model dengan parameterisasi yang berbeda dan / atau jumlah cluster yang berbeda. Secara umum semakin besar nilai BIC, semakin kuat bukti untuk model dan jumlah cluster (lihat, misalnya Fraley dan Raftery 2002a).

Pemilihan Model : Sekarang setelah ada model probabilitas yang terpasang pada kluster, Anda dapat menggunakan alat yang lebih canggih untuk membandingkan beberapa model kluster menggunakan pemilihan model Bayesian melalui faktor Bayes.

Dalam makalah mereka, Berapa Banyak Cluster? Metode Clustering Yang Mana? Jawaban Melalui Analisis Cluster Berbasis Model ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Faktor Bayes adalah peluang posterior untuk satu model terhadap model yang lain dengan asumsi tidak ada yang disukai secara apriori. Banfield dan Raftery [2] menggunakan perkiraan yang diturunkan secara heuristik untuk dua kali faktor Bayes, yang disebut 'AWE', untuk menentukan jumlah cluster dalam pengelompokan hierarkis berdasarkan pada kemungkinan klasifikasi. Ketika EM digunakan untuk menemukan kemungkinan campuran maksimum, perkiraan yang lebih andal untuk dua kali faktor Bay bay yang disebut BIC (Schwarz [32]) berlaku:

2log(p(x|M))+constant2lM(x,θ^)mmlog(n)BIC

di mana adalah (terintegrasi) kemungkinan data untuk model M, adalah log-kemungkinan campuran maixmized untuk model dan m_M adalah jumlah parameter independen diperkirakan dalam model. Jumlah cluster tidak dianggap sebagai parameter independen untuk keperluan komputasi BIC. Jika masing-masing model sama likeli , maka adalah sebanding dengan probabilitas posterior bahwa data sesuai dengan model . Dengan demikian, semakin besar nilai BIC, semakin kuat bukti untuk model tersebut.l M ( x , θ ) sebuah p r i o r i p ( x | M ) Mp(x|M)lM(x,θ^)a priorip(x|M)M

Jadi, secara ringkas, BIC tidak boleh diminimalkan. Orang yang menggunakan pendekatan pengelompokan berbasis model ini harus mencari model yang memaksimalkan BIC karena mendekati faktor Bayes dengan kemungkinan terintegrasi maksimum.

Pernyataan terakhir itu juga memiliki referensi:

Banfield, JD dan Raftery, AE (1993) Gaussian dan non-Gaussian clustering berbasis model. Biometrik, 49, 803- 821.

EDIT : Berdasarkan pertukaran email,

Sebagai catatan tambahan, selalu periksa bagaimana BIC didefinisikan. Kadang-kadang, misalnya dalam sebagian besar konteks regresi (di mana secara tradisional statistik diminimalkan untuk estimasi parameter, misalnya jumlah residu kuadrat, penyimpangan, dll) BIC dihitung sebagai -2 * loglik + npar * log (n), yaitu kebalikan dari apa yang digunakan dalam mclust. Jelas, dalam hal ini BIC harus diminimalkan.

Definisi umum BIC adalah ; mclust tidak termasuk komponen negatif.BIC=2×ln(L(θ|x))+k×ln(n)

Jon
sumber
1
Tidak yakin ke versi mana Mclust korespondensi email tanggapan ini terkait. Versi 4 dari Mclust menggunakan komponen negatif dari BIC dan karenanya harus dimaksimalkan. Semoga bermanfaat bagi orang yang mencoba mencari tahu apakah maksimisasi atau minimalisasi harus dilakukan.
Rasika
Terima kasih telah menunjukkannya, saya akan memperbarui pertanyaan ini sehingga masuk akal. Saya mungkin akan melihat dokumentasi juga untuk melihat apakah ada mengapa mereka memutuskan untuk melakukan perubahan ini setelah bertahun-tahun
Jon