Saya menggunakan statistik GAP untuk memperkirakan k cluster di R. Namun saya tidak yakin apakah saya menafsirkannya dengan baik.
Dari plot di atas saya berasumsi bahwa saya harus menggunakan 3 cluster.
Dari plot kedua saya harus memilih 6 cluster. Benarkah interpretasi statistik GAP?
Saya akan berterima kasih atas penjelasan apa pun.
clustering
peterpeter
sumber
sumber
clusGap
berdasarkan globalmax, saya tidak tahu bagaimana menerapkan maxSE.Jawaban:
Namun, dalam banyak dataset dunia nyata, klaster tidak terdefinisi dengan baik, dan kami ingin dapat menyeimbangkan memaksimalkan statistik kesenjangan dengan kekikiran model. Contoh kasus: gambar pertama OP. Jika kita memaksimalkan statistik gap saja , maka kita harus memilih model dengan 30 (atau bahkan lebih!) Cluster. Anggap saja plot itu hanya akan terus meningkat, tentu saja hasilnya kurang bermanfaat. Jadi Tibshirani menyarankan metode 1-standard-error :
Yang secara informal mengidentifikasi titik di mana tingkat peningkatan statistik kesenjangan mulai "melambat".
clusGap
firstSEmax
Sumber: Robert Tibshirani, Guenther Walther, dan Trevor Hastie (2001). Memperkirakan jumlah cluster dalam set data melalui statistik gap.
sumber