Apa fungsi jarak optimal untuk individu ketika atribut nominal?

12

Saya tidak tahu jarak mana fungsi antara individu untuk digunakan dalam kasus atribut nominal (kategori unordered). Saya membaca beberapa buku teks dan mereka menyarankan fungsi Simple Matching tetapi beberapa buku menyarankan agar saya mengubah nominal ke atribut biner dan menggunakan Koefisien Jaccard . Namun, bagaimana jika nilai atribut nominal bukan 2? bagaimana jika ada tiga atau empat nilai dalam atribut itu?

Fungsi jarak mana yang harus saya gunakan untuk atribut nominal?

Jane Doe
sumber
1
Saya menemukan posting ini berguna, pada statistik kuadrat C dan Chi.
KarthikS

Jawaban:

18

Secara teknis untuk menghitung ukuran dis (kesamaan) antara individu-individu pada atribut nominal kebanyakan program pertama recode setiap variabel nominal menjadi seperangkat variabel biner dummy dan kemudian menghitung beberapa ukuran untuk variabel biner. Berikut adalah rumus dari beberapa persamaan biner yang sering digunakan dan langkah-langkah ketidaksamaan .

Apa itu variabel dummy (juga disebut one-hot)? Di bawah ini adalah 5 orang, dua variabel nominal (A dengan 3 kategori, B dengan 2 kategori). 3 boneka dibuat di tempat A, 2 boneka dibuat di tempat B.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Tidak perlu menghilangkan satu variabel dummy sebagai "berlebihan" seperti yang biasanya kita lakukan dalam regresi dengan boneka. Itu tidak dilakukan dalam pengelompokan, meskipun dalam situasi khusus Anda mungkin mempertimbangkan pilihan itu.)

aa+b+c

  • a - jumlah boneka 1 untuk kedua individu
  • b - jumlah boneka 1 untuk ini dan 0 untuk itu
  • c - jumlah boneka 0 untuk ini dan 1 untuk itu
  • d - jumlah boneka tiruan 0 untuk keduanya

bcaa2a2a+b+cjarak. Lihat berapa banyak sinonim - Anda pasti menemukan sesuatu dalam perangkat lunak Anda!

Validitas intuitif koefisien kemiripan Dice berasal dari fakta bahwa itu hanyalah proporsi kemunculan bersama (atau kesepakatan relatif ). Untuk cuplikan data di atas, ambil kolom nominal Adan hitung 5x5matriks simetris kuadrat dengan salah satu 1(kedua individu jatuh dalam kategori yang sama) atau 0(tidak dalam kategori yang sama). Hitung juga matriks untuk B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Jumlah entri yang sesuai dari dua matriks dan bagi dengan 2 (jumlah variabel nominal) - di sini Anda bersama matriks koefisien Dice. (Jadi, sebenarnya Anda tidak perlu membuat boneka untuk menghitung Dice, dengan operasi matriks Anda mungkin dapat melakukannya lebih cepat dengan cara yang baru saja dijelaskan.) Lihat topik terkait pada Dice untuk asosiasi attribures nominal .

Meskipun Dadu adalah ukuran yang paling jelas untuk digunakan ketika Anda ingin fungsi (dis) kesamaan antara kasus ketika atribut kategori, tindakan biner lainnya dapat digunakan - jika menemukan formula mereka memenuhi pertimbangan tentang data nominal Anda.

a+da+b+c+dddb+cdd2=p(1SM)p

Tapi ...

d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Karena dalam banyak aplikasi dari matriks kedekatan, seperti dalam banyak metode analisis klaster, hasilnya tidak akan berubah atau akan berubah dengan lancar di bawah transformasi linear (dan kadang-kadang bahkan di bawah monoton) transformasi, tampaknya seseorang dapat dibenarkan untuk sejumlah besar ukuran biner selain Dadu untuk mendapatkan hasil yang sama atau mirip. Tetapi pertama - tama Anda harus mempertimbangkan / mengeksplorasi bagaimana metode spesifik (misalnya keterkaitan dalam pengelompokan hierarki) bereaksi terhadap transformasi tertentu dari perkiraan.

Jika pengelompokan terencana atau analisis MDS Anda peka terhadap transformasi monoton jarak Anda sebaiknya tidak menggunakan langkah-langkah yang dicatat sebagai "monoton" pada tabel di atas (dan dengan demikian ya, itu bukan ide yang baik untuk menggunakan kesamaan Jaccard atau jarak euclidean nonsquared jarak dengan dummy , yaitu mantan nominal, atribut).

ttnphns
sumber
ya Anda benar nilainya .. jadi satu atribut memiliki tiga nilai yang mungkin
Jane Doe
2
misalkan saya memiliki dua nilai atribut yang sama, "ball", "nall", "pall" dan saya mengonversinya menjadi 11 01 dan 00. Saya ingin mengukur jarak Jaccard antara 11 dan 00. Dalam hal ini, maka adalah jarak 1? karena a = 0 b = 2 c = 0 dan d = 0? tolong beritahu saya!
Jane Doe
Saya kehilangan inti dari komentar terakhir Anda. Tolong tanyakan dengan jelas. Atau gunakan contoh data saya di atas dengan 5 orang dan 2 atribut nominal dan beri tahu individu mana yang Anda ingin saya bandingkan dan dengan ukuran dis (kesamaan) apa.
ttnphns