Jadi, mendapatkan "ide" jumlah cluster optimal dalam k-means didokumentasikan dengan baik. Saya menemukan artikel tentang melakukan ini dalam campuran gaussian, tetapi tidak yakin saya yakin dengan itu, tidak memahaminya dengan baik. Apakah ada ... cara yang lebih lembut untuk melakukan ini?
10
Jawaban:
Hanya beberapa ekstensi untuk komentar Dikran Marsupial (cross-validation). Gagasan utamanya adalah untuk membagi data Anda ke dalam beberapa set pelatihan dan validasi, mencoba berbagai komponen dan memilih yang terbaik berdasarkan pada pelatihan yang sesuai dan nilai kemungkinan validasi.
Dalam contoh ini seharusnya jelas bahwa jumlah optimal komponen adalah sekitar 20. Ada video bagus tentang ini di Coursera, dan dari sanalah saya mendapatkan gambar di atas.
sumber