Apa saja langkah pra-pemrosesan (disarankan) terbaik sebelum melakukan k-means?
clustering
normalization
k-means
pedrosaurio
sumber
sumber
Jawaban:
Jika variabel Anda adalah unit yang tak tertandingi (misalnya tinggi dalam cm dan berat dalam kg), tentu saja Anda harus menstandarkan variabel. Bahkan jika variabel dari unit yang sama tetapi menunjukkan varian yang sangat berbeda, itu masih merupakan ide yang baik untuk melakukan standarisasi sebelum K-means. Anda tahu, pengelompokan K-means adalah "isotropik" di semua arah ruang dan karenanya cenderung menghasilkan lebih banyak atau lebih sedikit (bukan memanjang) kluster. Dalam situasi ini meninggalkan varians tidak sama dengan menempatkan lebih berat pada variabel dengan varians lebih kecil, sehingga cluster akan cenderung dipisahkan sepanjang variabel dengan varians yang lebih besar.
Hal lain yang juga perlu diingatkan adalah bahwa hasil pengelompokan K-means berpotensi sensitif terhadap urutan objek dalam kumpulan data . Praktik yang dibenarkan adalah menjalankan analisis beberapa kali, mengacak urutan objek; kemudian rata-rata pusat-pusat klaster yang menjalankan dan masukan pusat-pusat seperti yang awal untuk satu putaran terakhir analisis.1
Berikut adalah beberapa alasan umum tentang masalah fitur standardisasi dalam cluster atau analisis multivariat lainnya.
sumber
Tergantung pada data Anda, saya kira. Jika Anda ingin tren dalam data Anda mengelompok bersama terlepas dari besarnya, Anda harus memusatkan. misalnya. katakanlah Anda memiliki beberapa profil ekspresi gen, dan ingin melihat tren dalam ekspresi gen, maka tanpa pemusatan rata-rata, gen berekspresi rendah Anda akan berkumpul bersama dan menjauh dari gen berekspresi tinggi, terlepas dari tren. Pemusatan membuat gen (baik yang tinggi maupun yang rendah diekspresikan) dengan pola ekspresi yang mirip berkumpul bersama.
sumber