Pertanyaan yang diberi tag clustering

Analisis atau pengelompokan klaster adalah tugas pengelompokan sekumpulan objek sedemikian rupa sehingga objek dalam kelompok yang sama (disebut klaster) lebih mirip satu sama lain (dalam beberapa hal) daripada satu sama lain dalam kelompok lain (kluster) . Ini adalah tugas utama penambangan data eksplorasi, dan teknik umum untuk analisis data statistik, yang digunakan di banyak bidang, termasuk pembelajaran mesin, pengenalan pola, analisis gambar, pencarian informasi dll.

29
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?

Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba...

17
Pengelompokan berdasarkan skor kesamaan

Asumsikan bahwa kita memiliki satu set elemen E dan kesamaan ( tidak jarak ) fungsi sim (ei, ej) antara dua elemen ei, ej ∈ E . Bagaimana kita (secara efisien) mengelompokkan elemen-elemen E , menggunakan sim ? k -berarti, misalnya, membutuhkan k yang diberikan , Canopy Clustering membutuhkan dua...

17
Algoritma untuk pengelompokan teks

Saya memiliki masalah mengelompokkan kalimat dalam jumlah besar ke dalam kelompok dengan artinya. Ini mirip dengan masalah ketika Anda memiliki banyak kalimat dan ingin mengelompokkannya berdasarkan artinya. Algoritma apa yang disarankan untuk melakukan ini? Saya tidak tahu jumlah cluster di muka...

16
membuat peta panas seaborn lebih besar

Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk...

15
K-means vs. K-means online

K-means adalah algoritma yang terkenal untuk pengelompokan, tetapi ada juga variasi online dari algoritma tersebut (online K-means). Apa pro dan kontra dari pendekatan ini, dan kapan masing-masing harus lebih

14
K-means cepat seperti algoritma untuk 10 ^ 10 poin?

Saya mencari untuk melakukan k-means pengelompokan pada set poin 10-dimensi. Tangkapan: ada 10 ^ 10 poin . Saya hanya mencari pusat dan ukuran cluster terbesar (misalkan 10 hingga 100 cluster); Saya tidak peduli tentang tujuan dari setiap titik. Menggunakan k-means secara spesifik tidak penting;...