Metrik kinerja untuk mengevaluasi pembelajaran tanpa pengawasan

49

Sehubungan dengan pembelajaran tanpa pengawasan (seperti pengelompokan), apakah ada metrik untuk mengevaluasi kinerja?

pengguna3125
sumber
4
Saya pikir pertanyaan ini lebih umum dari yang itu, jadi saya memilih untuk membiarkan ini terbuka.
Peter Flom - Reinstate Monica
Saya memiliki pertanyaan yang sama dengan yang Anda miliki, dan memiliki beberapa (yang belum sepenuhnya dibaca) referensi yang relevan: Sebuah Survei tentang Pengukuran Validitas Internal untuk Validasi Cluster L.Jegatha Deborah, R.Baskaran, A.Kannan dan Teknik Pengukuran Validitas Cluster Ferenc Kovács, Csaba Legány, Attila Babos
kasterma

Jawaban:

44

Dalam beberapa hal saya pikir pertanyaan ini tidak dapat dijawab. Saya mengatakan ini karena seberapa baik kinerja metode tanpa pengawasan tertentu akan sangat tergantung pada mengapa seseorang melakukan pembelajaran tanpa pengawasan di tempat pertama, yaitu, apakah metode tersebut bekerja dengan baik dalam konteks tujuan akhir Anda? Jelas ini tidak sepenuhnya benar, orang-orang mengerjakan masalah ini dan mempublikasikan hasil yang mencakup semacam evaluasi. Saya akan menguraikan beberapa pendekatan yang saya kenal di bawah ini.

Sumber yang baik (dengan referensi) untuk pengelompokan adalah halaman dokumentasi sklearn, Clustering Performance Evaluation . Ini mencakup beberapa metode, tetapi semua kecuali satu, Koefisien Siluet, mengasumsikan label kebenaran tanah tersedia. Metode ini juga disebutkan dalam pertanyaan Evaluasi ukuran pengelompokan , terkait dalam komentar untuk pertanyaan ini.

Jika metode pembelajaran Anda yang tidak diawasi adalah probabilistik, opsi lain adalah mengevaluasi beberapa ukuran probabilitas (log-likelihood, kebingungan, dll) pada data yang tersedia. Motivasi di sini adalah bahwa jika metode pembelajaran tanpa pengawasan Anda memberikan probabilitas tinggi untuk data serupa yang tidak digunakan untuk memenuhi parameter, maka itu mungkin telah melakukan pekerjaan yang baik untuk menangkap distribusi minat. Domain tempat tipe evaluasi ini biasa digunakan adalah pemodelan bahasa.

Opsi terakhir yang akan saya sebutkan adalah menggunakan pelajar yang diawasi pada tugas bantu terkait. Jika Anda tanpa pengawasan metode menghasilkan variabel laten, Anda dapat menganggap variabel laten ini sebagai representasi dari input. Dengan demikian, masuk akal untuk menggunakan variabel-variabel laten ini sebagai input untuk classifier yang diawasi melakukan beberapa tugas yang berkaitan dengan domain dari mana data berasal. Kinerja metode yang diawasi kemudian dapat berfungsi sebagai pengganti untuk kinerja pelajar yang tidak diawasi. Ini pada dasarnya adalah pengaturan yang Anda lihat di sebagian besar bekerja pada pembelajaran representasi.

Deskripsi ini mungkin agak kabur, jadi saya akan memberikan contoh nyata. Hampir semua pekerjaan pembelajaran representasi kata menggunakan pendekatan berikut untuk evaluasi:

  1. Pelajari representasi kata-kata menggunakan pelajar tanpa pengawasan.
  2. Gunakan representasi yang dipelajari sebagai input untuk pelajar yang diawasi melakukan beberapa tugas NLP seperti bagian dari penandaan ucapan atau pengakuan entitas bernama.
  3. Menilai kinerja pelajar yang tidak diawasi oleh kemampuannya untuk meningkatkan kinerja pelajar yang diawasi dibandingkan dengan baseline menggunakan representasi standar, seperti fitur kehadiran kata biner, sebagai input.

Untuk contoh dari pendekatan ini dalam tindakan, lihat makalah Pelatihan Mesin Boltzmann Terbatas pada Pengamatan Kata oleh Dahl et al.

alto
sumber
11
+1 " Seberapa baik kinerja metode tanpa pengawasan tertentu akan sangat tergantung pada mengapa seseorang melakukan pembelajaran tanpa pengawasan di tempat pertama " cukup banyak merangkumnya. Jangan mencari nomor ajaib yang entah bagaimana dapat Anda gunakan untuk membenarkan hasil yang diberikan tanpa benar-benar menafsirkan hasilnya .
Marc Claesen
1
Saya juga akan menambahkan bahwa menggunakan pendekatan terawasi sebagai proksi untuk seberapa baik pendekatan tanpa pengawasan bekerja tidak memerlukan penemuan fitur baru. Misalnya, pengelompokan tidak mempelajari fitur baru, namun pengelompokan sering digunakan untuk meningkatkan akurasi prediksi pelajar yang diawasi, dengan manfaat tambahan menjelaskan mengapa hal ini mungkin terjadi. Sebagai contoh, k-means clustering dapat menghasilkan prediksi k yang masing-masing ditingkatkan dengan cara mengeksploitasi struktur yang ditemukan dan kompresi dari clustering. Lihat ttic.uchicago.edu/~shubhendu/Papers/clustering_bagging.pdf
Cybernetic