Saya tidak tahu jarak mana fungsi antara individu untuk digunakan dalam kasus atribut nominal (kategori unordered). Saya membaca beberapa buku teks dan mereka menyarankan fungsi Simple Matching tetapi beberapa buku menyarankan agar saya mengubah nominal ke atribut biner dan menggunakan Koefisien Jaccard . Namun, bagaimana jika nilai atribut nominal bukan 2? bagaimana jika ada tiga atau empat nilai dalam atribut itu?
Fungsi jarak mana yang harus saya gunakan untuk atribut nominal?
Jawaban:
Secara teknis untuk menghitung ukuran dis (kesamaan) antara individu-individu pada atribut nominal kebanyakan program pertama recode setiap variabel nominal menjadi seperangkat variabel biner dummy dan kemudian menghitung beberapa ukuran untuk variabel biner. Berikut adalah rumus dari beberapa persamaan biner yang sering digunakan dan langkah-langkah ketidaksamaan .
Apa itu variabel dummy (juga disebut one-hot)? Di bawah ini adalah 5 orang, dua variabel nominal (A dengan 3 kategori, B dengan 2 kategori). 3 boneka dibuat di tempat A, 2 boneka dibuat di tempat B.
(Tidak perlu menghilangkan satu variabel dummy sebagai "berlebihan" seperti yang biasanya kita lakukan dalam regresi dengan boneka. Itu tidak dilakukan dalam pengelompokan, meskipun dalam situasi khusus Anda mungkin mempertimbangkan pilihan itu.)
Validitas intuitif koefisien kemiripan Dice berasal dari fakta bahwa itu hanyalah proporsi kemunculan bersama (atau kesepakatan relatif ). Untuk cuplikan data di atas, ambil kolom nominal
A
dan hitung5x5
matriks simetris kuadrat dengan salah satu1
(kedua individu jatuh dalam kategori yang sama) atau0
(tidak dalam kategori yang sama). Hitung juga matriks untukB
.Jumlah entri yang sesuai dari dua matriks dan bagi dengan 2 (jumlah variabel nominal) - di sini Anda bersama matriks koefisien Dice. (Jadi, sebenarnya Anda tidak perlu membuat boneka untuk menghitung Dice, dengan operasi matriks Anda mungkin dapat melakukannya lebih cepat dengan cara yang baru saja dijelaskan.) Lihat topik terkait pada Dice untuk asosiasi attribures nominal .
Meskipun Dadu adalah ukuran yang paling jelas untuk digunakan ketika Anda ingin fungsi (dis) kesamaan antara kasus ketika atribut kategori, tindakan biner lainnya dapat digunakan - jika menemukan formula mereka memenuhi pertimbangan tentang data nominal Anda.
Tapi ...
Karena dalam banyak aplikasi dari matriks kedekatan, seperti dalam banyak metode analisis klaster, hasilnya tidak akan berubah atau akan berubah dengan lancar di bawah transformasi linear (dan kadang-kadang bahkan di bawah monoton) transformasi, tampaknya seseorang dapat dibenarkan untuk sejumlah besar ukuran biner selain Dadu untuk mendapatkan hasil yang sama atau mirip. Tetapi pertama - tama Anda harus mempertimbangkan / mengeksplorasi bagaimana metode spesifik (misalnya keterkaitan dalam pengelompokan hierarki) bereaksi terhadap transformasi tertentu dari perkiraan.
Jika pengelompokan terencana atau analisis MDS Anda peka terhadap transformasi monoton jarak Anda sebaiknya tidak menggunakan langkah-langkah yang dicatat sebagai "monoton" pada tabel di atas (dan dengan demikian ya, itu bukan ide yang baik untuk menggunakan kesamaan Jaccard atau jarak euclidean nonsquared jarak dengan dummy , yaitu mantan nominal, atribut).
sumber