Ketika kami melakukan klasifikasi dan regresi, kami biasanya menetapkan set pengujian dan pelatihan untuk membantu kami membangun dan meningkatkan model.
Namun, ketika kita melakukan pengelompokan, apakah kita juga perlu mengatur pengujian dan pelatihan? Mengapa?
Jawaban:
Ya, karena pengelompokan juga dapat mengalami masalah pemasangan berlebihan. Misalnya, peningkatan jumlah cluster akan selalu "meningkatkan kinerja".
Berikut ini satu demo menggunakan pengelompokan K-Means:
Fungsi objektif K-means adalah (detail notasi dapat ditemukan di sini )
Dengan tujuan seperti itu, lebih rendah berarti model "lebih baik".J
Misalkan kita memiliki data berikut (data iris), memilih jumlah cluster sebagai akan selalu "lebih baik" daripada memilih jumlah cluster sebagai . Maka memilih klaster akan lebih baik dari klaster. Kita dapat melanjutkan di jalur ini dan berakhir dengan biaya : cukup buat jumlah cluster sama dengan jumlah titik data dan tempatkan semua pusat cluster pada titik yang sesuai.4 3 5 4 J= 0
Jika kami telah menunda data untuk pengujian, itu akan mencegah kami terlalu fit. Contoh yang sama, misalkan kita memilih cluster dalam jumlah besar dan menempatkan setiap pusat cluster ke poin data pelatihan. Kesalahan pengujian akan besar, karena titik data pengujian tidak akan tumpang tindih dengan data pelatihan.
sumber
Tidak, ini biasanya tidak mungkin dilakukan.
Ada sangat sedikit pengelompokan yang bisa Anda gunakan seperti classifier. Hanya dengan k-means, PAM dll. Anda dapat mengevaluasi "generalisasi", tetapi pengelompokan menjadi jauh lebih beragam (dan menarik) sejak itu. Dan pada kenyataannya, bahkan pengelompokan hierarkis lama tidak akan menggeneralisasi dengan baik untuk data 'baru'. Clustering bukan klasifikasi. Banyak metode dari klasifikasi tidak dapat ditransfer dengan baik ke pengelompokan; termasuk optimasi hiperparameter.
Jika Anda hanya memiliki data berlabel sebagian, Anda dapat menggunakan label ini untuk mengoptimalkan parameter. Tetapi skenario umum pengelompokan adalah bahwa Anda ingin mempelajari lebih lanjut tentang kumpulan data Anda; jadi Anda menjalankan pengelompokan beberapa kali, selidiki cluster yang menarik (karena biasanya, beberapa cluster jelas terlalu kecil atau terlalu besar untuk menarik!) dan catat beberapa wawasan yang Anda dapatkan. Clustering adalah alat untuk membantu manusia mengeksplorasi kumpulan data , bukan hal yang otomatis. Tetapi Anda tidak akan "menggunakan" pengelompokan. Mereka terlalu tidak dapat diandalkan, dan satu pengelompokan tidak akan pernah "menceritakan seluruh kisah".
sumber
Tidak. Anda tidak menggunakan pelatihan dan pengujian dalam pembelajaran tanpa pengawasan. Tidak ada fungsi objektif dalam pembelajaran tanpa pengawasan untuk menguji kinerja algoritma.
sumber