Saat ini, saya mencoba untuk menganalisis dataset dokumen teks yang tidak memiliki kebenaran dasar. Saya diberitahu bahwa Anda dapat menggunakan validasi silang k-fold untuk membandingkan berbagai metode pengelompokan. Namun, contoh-contoh yang saya lihat di masa lalu menggunakan kebenaran dasar. Apakah ada cara untuk menggunakan cara k-fold pada dataset ini untuk memverifikasi hasil saya?
Saya mencoba memahami bagaimana Anda akan menerapkan validasi silang ke metode pengelompokan seperti k-means karena data yang baru datang akan mengubah centroid dan bahkan distribusi pengelompokan pada yang sudah ada.
Mengenai validasi tanpa pengawasan pada pengelompokan, Anda mungkin perlu mengukur stabilitas algoritma Anda dengan nomor cluster yang berbeda pada data sampel ulang.
Gagasan dasar stabilitas pengelompokan dapat ditunjukkan pada gambar di bawah ini:
Anda dapat mengamati bahwa dengan angka pengelompokan 2 atau 5, setidaknya ada dua hasil pengelompokan yang berbeda (lihat garis putus garis dalam gambar), namun dengan angka pengelompokan 4, hasilnya relatif stabil.
Stabilitas pengelompokan: tinjauan umum oleh Ulrike von Luxburg mungkin membantu.
sumber
Untuk memudahkan penjelasan dan kejelasan saya akan bootstrap clustering.
Secara umum, Anda dapat menggunakan pengelompokan yang di-resampled untuk mengukur stabilitas solusi Anda: apakah itu hampir tidak berubah sama sekali atau apakah itu benar-benar berubah?
Meskipun Anda tidak memiliki kebenaran dasar, Anda tentu saja dapat membandingkan pengelompokan yang dihasilkan dari berbagai proses yang berbeda dari metode yang sama (resampling) atau hasil dari algoritma pengelompokan yang berbeda misalnya dengan mentabulasi:
karena cluster adalah nominal, pesanan mereka dapat berubah secara sewenang-wenang. Tetapi itu berarti bahwa Anda diizinkan untuk mengubah urutan sehingga cluster sesuai. Kemudian elemen diagonal * menghitung kasus yang ditugaskan ke cluster yang sama dan elemen off-diagonal menunjukkan dengan cara apa tugas diubah:
Saya akan mengatakan resampling baik untuk menentukan seberapa stabil clustering Anda dalam setiap metode. Tanpa itu, tidak masuk akal untuk membandingkan hasilnya dengan metode lain.
Anda tidak mencampurkan validasi k-fold cross dan k-means clustering, bukan?
sumber
Ada publikasi terbaru tentang metode validasi bi-cross untuk menentukan jumlah cluster di sini .
dan seseorang berusaha menerapkannya dengan sci-kit pelajari di sini .
sumber