Bagaimana cara saya menentukan nilai T1 & T2 secara algoritmik untuk pengelompokan kanopi?

8

Saya mencoba menggunakan kanopi clustering untuk memberikan kluster awal untuk KMeans di Mahout.

Apakah ada cara untuk menentukan / memperkirakan nilai ambang batas T1 & T2 secara algoritmik? Saat ini saya memiliki T1 = 100 dan T2 = 1 yang sepertinya tidak melakukan hal yang baik.

Rohan Monga
sumber
Referensi ini secara samar mengisyaratkan bahwa T1 dan T2 dapat diatur dengan "validasi silang." Perhatikan bahwa ambang ini sangat tergantung pada sifat metrik, pada dimensi masalah, dan bahkan pada distribusi data.
whuber
saya memiliki kumpulan data yang cukup besar, dengan dimensi> 100K (beberapa pertunjukan), apakah ada cara memperkirakan teknik distribusi / pengambilan sampel yang akan bekerja?
Rohan Monga
Jadi ia memiliki beberapa ratus k dimensi. Berapa banyak baris? Apakah ini kontinu, atau kategorikal? Seberapa jarang itu? Mengapa Anda mengelompokkannya - apa tujuannya? Sudahkah Anda mencoba k-means normal? Jika Anda tidak menyukai dimensi Anda - sudahkah Anda melihat pengurangan dimensi atau kepentingan variabel?
EngrStudent

Jawaban:

1

Sebagai catatan whuber, penulis dari algoritma clustering kanopi menyarankan bahwa T1 dan T2 dapat diatur dengan validasi silang. Namun, parameter ini dapat disetel dengan cara yang sama seperti parameter hiper lainnya. Salah satu teknik yang paling umum adalah pencarian kisi, di mana rentang ditentukan untuk setiap parameter, serta ukuran langkah untuk bagaimana parameter diubah di setiap iterasi. Misalnya, misalkan kita menetapkan T1 memiliki kisaran nilai 25 hingga 100 dengan ukuran langkah 25. Ini berarti nilai yang mungkin dari T1 untuk dicoba adalah (25, 50, 75, 100). Demikian juga, kita bisa mengatur T2 untuk memiliki nilai yang mungkin antara 1-4, dengan ukuran langkah 1, sehingga nilai yang mungkin adalah (1,2,3,4). Ini berarti ada 16 set parameter yang mungkin untuk dicoba. Seperti halnya algoritma klasifikasi atau pengelompokan lainnya, apakah Anda akan menilai kemanjurannya dengan menghitung skor-F1, akurasi / kesalahan, atau metrik kinerja lainnya untuk menentukan set terbaik dari 16 set parameter. Selain pencarian kisi, algoritma pengoptimalan parameter-hyper lainnya termasuk Nelder-Mead ,algoritma genetik , anil simulasi , dan optimalisasi kerumunan partikel , di antara banyak lainnya. Algoritma ini akan membantu Anda menentukan nilai yang sesuai untuk T1 dan T2 secara otomatis.

Anda mencatat di atas bahwa Anda memiliki kumpulan data 100K-dimensi. Apakah Anda mengacu pada jumlah baris atau jumlah kolom dalam data Anda? Jika Anda mengacu pada jumlah kolom, saya akan menyarankan untuk melakukan beberapa kombinasi pemilihan fitur berdasarkan varians fitur individu dan ekstraksi fitur melalui analisis komponen utama (PCA) atau Kernel-PCA . Sekalipun banyak fitur Anda berguna (mis. Memberikan keuntungan informasi untuk membedakan antara cluster / kelas / nilai variabel output), memiliki terlalu banyak fitur mungkin berarti algoritma pengelompokan Anda tidak dapat menentukan jarak yang sesuai antara instance.

Dirigo
sumber