Pertanyaan yang diberi tag clustering

Analisis Cluster adalah tugas mempartisi data menjadi himpunan bagian objek sesuai dengan "kesamaan" mereka, tanpa menggunakan pengetahuan yang sudah ada sebelumnya seperti label kelas. [Clustered-standard-error dan / atau cluster-samples harus ditandai seperti itu; JANGAN gunakan tag "clustering" untuk mereka.]

78
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner

Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

78
Clustering pada output t-SNE

Saya punya aplikasi di mana akan berguna untuk mengelompokkan dataset yang berisik sebelum mencari efek subkelompok di dalam kluster. Saya pertama kali melihat PCA, tetapi dibutuhkan ~ 30 komponen untuk mencapai 90% dari variabilitas, jadi pengelompokan hanya pada beberapa PC akan membuang banyak...

73
Memilih metode pengelompokan

Ketika menggunakan analisis klaster pada kumpulan data untuk mengelompokkan kasus-kasus serupa, seseorang perlu memilih di antara sejumlah besar metode pengelompokan dan ukuran jarak. Terkadang, satu pilihan mungkin memengaruhi yang lain, tetapi ada banyak kemungkinan kombinasi metode. Apakah ada...

61
Apa hubungan antara k-means clustering dan PCA?

Ini adalah praktik umum untuk menerapkan PCA (analisis komponen utama) sebelum algoritma pengelompokan (seperti k-means). Diyakini bahwa ini meningkatkan hasil pengelompokan dalam praktik (pengurangan kebisingan). Namun saya tertarik pada studi komparatif dan mendalam tentang hubungan antara PCA...

61
Di mana harus memotong dendrogram?

Pengelompokan hierarki dapat diwakili oleh dendrogram. Memotong dendrogram pada tingkat tertentu memberikan satu set cluster. Pemotongan di tingkat lain memberikan kelompok cluster lain. Bagaimana Anda memilih tempat memotong dendrogram? Adakah sesuatu yang bisa kita pertimbangkan sebagai titik...

54
Bagaimana cara memutuskan jumlah cluster yang benar?

Kami menemukan pusat-pusat klaster dan menetapkan poin ke k tempat-tempat klaster yang berbeda dalam klaster k-means yang merupakan algoritma yang sangat terkenal dan ditemukan hampir di setiap paket pembelajaran mesin di internet. Tetapi bagian yang hilang dan paling penting menurut saya adalah...

52
Clustering dengan matriks jarak

Saya memiliki matriks (simetris) Myang mewakili jarak antara setiap pasangan node. Sebagai contoh, ABCD EFGH IJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 140 E 40 60...

46
Interpretasi dari prediktor dan / atau respons yang diubah log

Saya bertanya-tanya apakah itu membuat perbedaan dalam interpretasi apakah hanya dependen, baik dependen dan independen, atau hanya variabel independen yang ditransformasikan log. Pertimbangkan kasus log(DV) = Intercept + B1*IV + Error Saya bisa menafsirkan IV sebagai peningkatan persen tetapi...

44
Apakah penting untuk mengukur data sebelum pengelompokan?

Saya menemukan tutorial ini , yang menunjukkan bahwa Anda harus menjalankan fungsi skala pada fitur sebelum pengelompokan (saya percaya itu mengubah data menjadi z-skor). Saya bertanya-tanya apakah itu perlu. Saya bertanya sebagian besar karena ada titik siku yang bagus ketika saya tidak menskala...