Pertanyaan kedua adalah bahwa saya menemukan dalam suatu diskusi di suatu tempat di web berbicara tentang "pengelompokan terawasi", sejauh yang saya tahu, pengelompokan tanpa pengawasan, jadi apa sebenarnya arti di balik "pengelompokan yang diawasi"? Apa bedanya dengan "klasifikasi"?
Ada banyak tautan yang membicarakan hal itu:
http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf
http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf
http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf
http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf
http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf
http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf
http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
dll ...
Jawaban:
Pemahaman naif saya adalah bahwa klasifikasi dilakukan di mana Anda memiliki seperangkat kelas yang ditentukan dan Anda ingin mengklasifikasikan sesuatu / dataset baru ke salah satu kelas yang ditentukan.
Atau, pengelompokan tidak memiliki permulaan dan Anda menggunakan semua data (termasuk yang baru) untuk memisahkan ke dalam kelompok.
Keduanya menggunakan metrik jarak untuk memutuskan bagaimana mengelompokkan / mengklasifikasikan. Perbedaannya adalah bahwa klasifikasi didasarkan pada sekumpulan kelas yang didefinisikan sebelumnya sedangkan clustering memutuskan kelompok berdasarkan seluruh data.
Sekali lagi saya mengerti naif adalah bahwa clustering masih diawasi berdasarkan seluruh data dan dengan demikian akan clustering daripada klasifikasi.
Pada kenyataannya, saya yakin teori di balik pengelompokan dan klasifikasi saling kembar.
sumber
Saya rasa saya tidak tahu lebih banyak daripada Anda, tetapi tautan yang Anda posting menyarankan jawaban. Saya akan mengambil http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf sebagai contoh. Pada dasarnya mereka menyatakan: 1) pengelompokan tergantung pada jarak. 2) keberhasilan penggunaan k-means membutuhkan jarak yang dipilih dengan cermat. 3) Mengingat data pelatihan dalam bentuk set item dengan partisi yang diinginkan, kami menyediakan metode SVM struktural yang mempelajari ukuran jarak sehingga k-means menghasilkan pengelompokan yang diinginkan.Dalam hal ini ada tahap yang diawasi untuk pengelompokan, dengan data pelatihan dan pembelajaran. Tujuan dari tahap ini adalah untuk mempelajari fungsi jarak sehingga menerapkan k-means clustering dengan jarak ini diharapkan akan optimal, tergantung pada seberapa baik data pelatihan menyerupai domain aplikasi. Semua peringatan biasa yang sesuai dengan pembelajaran mesin dan pengelompokan masih berlaku.
Mengutip lebih lanjut dari artikel: Pengelompokan terawasi adalah tugas untuk secara otomatis mengadaptasi algoritma pengelompokan dengan bantuan satu set pelatihan yang terdiri dari set item dan partisi lengkap dari set item ini. . Itu sepertinya definisi yang masuk akal.
sumber
Beberapa definisi:
Pengelompokan terawasi diterapkan pada contoh-contoh rahasia dengan tujuan mengidentifikasi kluster yang memiliki kepadatan probabilitas tinggi untuk satu kelas.
Clustering tanpa pengawasan adalah kerangka kerja pembelajaran yang menggunakan fungsi objek tertentu, misalnya fungsi yang meminimalkan jarak di dalam sebuah cluster untuk menjaga cluster tetap rapat.
Pengelompokan semi-diawasi adalah untuk meningkatkan algoritma pengelompokan dengan menggunakan informasi sisi dalam proses pengelompokan.
Kemajuan dalam Jaringan Saraf Tiruan - ISNN 2010
Tanpa menggunakan terlalu banyak jargon karena saya seorang pemula di bidang ini, cara saya memahami pengelompokan terawasi lebih kurang seperti ini:
Dalam pengelompokan terawasi Anda mulai dari Top-Downdengan beberapa kelas yang telah ditentukan dan kemudian menggunakan pendekatan Bottom-Up Anda menemukan objek mana yang lebih cocok ke kelas Anda.
Misalnya, Anda melakukan penelitian tentang jenis jeruk favorit dalam suatu populasi.
Dari banyak jenis jeruk Anda menemukan bahwa 'jenis' jeruk tertentu adalah yang disukai.
Namun, jenis jeruk itu sangat rapuh dan labil terhadap infeksi, perubahan iklim, dan agen lingkungan lainnya.
Jadi Anda ingin menyeberanginya dengan spesies lain yang sangat tahan terhadap penghinaan itu.
Kemudian Anda pergi ke lab dan menemukan beberapa gen yang bertanggung jawab untuk rasa berair dan manis dari satu jenis, dan untuk kemampuan tahan dari jenis lainnya.
Anda melakukan beberapa percobaan dan diakhiri dengan katakanlah ratusan subtipe jeruk yang berbeda.
Sekarang Anda tertarik hanya pada subtipe yang cocok dengan properti yang dijelaskan.
Anda tidak ingin melakukan penelitian yang sama dalam populasi Anda lagi ...
Anda tahu properti yang Anda cari dalam warna oranye sempurna.
Jadi Anda menjalankan analisis kluster dan memilih yang paling sesuai dengan harapan Anda.
sumber