Dalam dataset saya, kami memiliki variabel diskrit kontinu dan alami. Saya ingin tahu apakah kita bisa melakukan pengelompokan hierarkis menggunakan kedua jenis variabel. Dan jika ya, ukuran jarak apa yang sesuai?
34
Dalam dataset saya, kami memiliki variabel diskrit kontinu dan alami. Saya ingin tahu apakah kita bisa melakukan pengelompokan hierarkis menggunakan kedua jenis variabel. Dan jika ya, ukuran jarak apa yang sesuai?
Jawaban:
Salah satu caranya adalah dengan menggunakan koefisien kesamaan Gower yang merupakan ukuran komposit ; dibutuhkan variabel kuantitatif (seperti skala penilaian), biner (seperti ada / tidak ada) dan nominal (seperti pekerja / guru / juru tulis). Kemudian Podani menambahkan opsi untuk mengambil variabel ordinal juga.1 2
Koefisien mudah dipahami bahkan tanpa formula; Anda menghitung nilai kesamaan antara individu dengan masing-masing variabel, dengan mempertimbangkan jenis variabel, dan kemudian rata-rata di semua variabel. Biasanya, program yang menghitung Gower akan memungkinkan Anda untuk menimbang variabel, yaitu kontribusi mereka, ke formula komposit. Namun, pembobotan variabel yang tepat dari tipe yang berbeda adalah masalah , tidak ada pedoman yang jelas, yang membuat Gower atau indeks "komposit" kedekatan lainnya menarik yang dihadapi.
Sisi kesamaan Gower ( ):GS
(Sangat mudah untuk memperpanjang daftar jenis. Misalnya, seseorang dapat menambahkan ringkasan untuk variabel jumlah, menggunakan jarak chi-squared dinormalisasi dikonversi ke kesamaan.)
Koefisien berkisar antara 0 dan 1.
" Jarak gower ". Tanpa variabel ordinal hadir (yaitu tanpa menggunakan opsi Podani) berperilaku sebagai jarak Euclidean, itu sepenuhnya mendukung ruang euclidean. Tapi hanya metrik (mendukung ketimpangan segitiga), bukan Euclidean. Dengan variabel ordinal hadir (menggunakan opsi Podani) hanya metrik, bukan Euclidean; dan sama sekali bukan metrik. Lihat juga .1−GS−−−−−−√ 1−GS 1−GS−−−−−−√ 1−GS
Dengan jarak euclidean (jarak yang mendukung ruang Euclidean), hampir semua teknik pengelompokan klasik akan dilakukan. Termasuk K-means (jika program K-means Anda dapat memproses matriks jarak, tentu saja) dan termasuk Ward, centroid, metode median pengelompokan hierarki . Menggunakan K-means atau metode-metode lain berdasarkan jarak Euclidean dengan non-euclidean masih metrik jarak mungkin diterima secara heuristik , mungkin. Dengan jarak non-metrik, metode seperti itu tidak dapat digunakan.
Paragraf sebelumnya berbicara tentang apakah K-means atau Ward atau pengelompokan semacam itu legal atau tidak dengan jarak Gower secara matematis (geometris). Dari sudut pandang skala pengukuran ("psikometrik"), seseorang tidak boleh menghitung penyimpangan jarak rata-rata atau euclidean dari data tersebut dalam data kategorikal (nominal, biner, dan juga ordinal); karena itu dari posisi ini Anda tidak boleh memproses koefisien Gower dengan K-means, Ward, dll. Sudut pandang ini memperingatkan bahwa bahkan jika ruang Euclidean hadir, ia dapat digranulasi, tidak mulus ( lihat terkait ).
sumber
Jika Anda menemukan pertanyaan ini dan bertanya-tanya paket apa yang harus diunduh untuk menggunakan metrik Gower di R ,
cluster
paket tersebut memiliki fungsi bernama daisy () , yang secara default menggunakan metrik Gower setiap kali jenis variabel campuran digunakan. Atau Anda dapat mengaturnya secara manual untuk menggunakan metrik Gower.sumber
StatMatch
.