Saya ingin menetapkan bobot yang berbeda untuk variabel dalam analisis kluster saya, tetapi program saya (Stata) tampaknya tidak memiliki opsi untuk ini, jadi saya harus melakukannya secara manual.
Bayangkan 4 variabel A, B, C, D. Bobot untuk variabel-variabel tersebut seharusnya
w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%
Saya bertanya-tanya apakah salah satu dari dua pendekatan berikut akan benar-benar melakukan trik:
- Pertama, saya membuat standar semua variabel (misalnya dengan rentangnya). Kemudian saya gandakan setiap variabel terstandarisasi dengan bobotnya. Kemudian lakukan analisis cluster.
- Saya mengalikan semua variabel dengan bobotnya dan membakukannya setelahnya. Kemudian lakukan analisis cluster.
Atau keduanya sama-sama omong kosong?
[EDIT] Algoritma pengelompokan (saya mencoba 3 berbeda) yang ingin saya gunakan adalah k-means, tautan rata-rata tertimbang dan tautan rata-rata. Saya berencana untuk menggunakan tautan rata-rata tertimbang untuk menentukan jumlah cluster yang baik yang saya tancapkan ke k-means sesudahnya.
clustering
stata
SPi
sumber
sumber
Jawaban:
Salah satu cara untuk memberikan bobot pada variabel adalah dengan mengubah skalanya. Trik ini berfungsi untuk algoritma pengelompokan yang Anda sebutkan, yaitu. k-means, tautan rata-rata tertimbang dan tautan rata-rata.
Kaufman, Leonard, dan Peter J. Rousseeuw. " Menemukan kelompok dalam data: Pengantar analisis klaster ." (2005) - halaman 11:
Abrahamowicz, M. (1985), Penggunaan informasi pnon non-numerik untuk mengukur perbedaan, makalah yang dipresentasikan pada Pertemuan Eropa Keempat Masyarakat Psikometrik dan Masyarakat Klasifikasi, 2-5 Juli, Cambridge (Inggris).
Friedman, HP, dan Rubin, J. (1967), Pada beberapa kriteria invarian untuk pengelompokan data. J. Amer. Statist. ASSOC6., 2, 1159-1178.
Hardy, A., dan Rasson, JP (1982), Une nouvelle approche des problemes de automatique klasifikasi, Statist. Anal Donnies, 7, 41-56.
sumber