Apakah lebar siluet rendah berarti data hanya memiliki sedikit struktur mendasar?

10

Saya baru dalam analisis sekuens, dan saya bertanya-tanya bagaimana Anda bereaksi jika rata-rata lebar siluet (ASW) dari analisis kluster dari matriks ketidaksamaan berbasis Pencocokan Optimal rendah (sekitar.25). Apakah akan tepat untuk menyimpulkan bahwa ada sedikit struktur mendasar yang akan memungkinkan urutan untuk dikelompokkan? Mungkinkah Anda mengabaikan ASW rendah berdasarkan ukuran kualitas cluster lainnya (saya telah menempelkan beberapa di bawah)? Atau mungkinkah pilihan yang dibuat selama analisis urutan atau analisis kluster berikutnya mungkin bertanggung jawab atas angka ASW yang rendah?

Setiap saran akan dihargai. Terima kasih.

Jika diperlukan lebih banyak konteks:

Saya memeriksa 624 urutan ketidakcocokan jam kerja (yaitu, ketidakcocokan antara jumlah jam seseorang lebih memilih untuk bekerja dalam seminggu dan jumlah jam mereka sebenarnya bekerja) di antara orang-orang berusia 20-an. Semua urutan yang saya periksa memiliki panjang 10. Objek urutan saya memiliki lima negara (M = ingin lebih banyak jam, S = ingin jam yang sama, F = ingin lebih sedikit jam, O = keluar dari angkatan kerja, dan U = menganggur ).

Saya belum melakukan penghitungan yang sistematis tentang bagaimana hasil ASW bervariasi dengan kombinasi pendekatan yang berbeda. Namun, saya telah mencoba biaya rendah dan menengah (0,1 dan 0,6 dari biaya substitusi maks - saya lebih peduli tentang urutan peristiwa daripada waktu mereka) dan prosedur pengelompokan yang berbeda (bangsal, rata-rata, dan pam). Kesan keseluruhan saya adalah bahwa angka ASW tetap rendah.

Mungkin hasil ASW yang rendah masuk akal. Saya berharap negara-negara ini datang dalam berbagai pesanan yang berbeda, dan negara-negara bagian dapat diulang. Menghapus pengamatan duplikat hanya menurunkan N dari 624 menjadi 536. Mempelajari data mengungkapkan bahwa memang ada sedikit variasi dan urutan yang saya anggap sangat berbeda misalnya, orang-orang yang menginginkan jam yang sama sepanjang waktu, mengembangkan ketidakcocokan, menyelesaikan ketidakcocokan, dan terombang-ambing antara memiliki dan tidak memiliki ketidakcocokan. Mungkin kurangnya kelompok yang dibedakan secara jelas bukanlah hal yang sama dengan kurangnya variasi yang menarik. Namun, hasil cluster yang lemah tampaknya membuat saya tanpa cara yang baik untuk meringkas urutannya.

Hasil dari metode Ward dengan indel ditetapkan pada 0,1 dari biaya substitusi 2 Statistik ini tampaknya menunjukkan solusi 6 klaster mungkin baik. ASW, bagaimanapun, rendah - setidaknya untuk solusi yang memiliki jumlah cluster yang masuk akal (2 atau 3 terlalu sedikit).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08
JeremyR
sumber

Jawaban:

11

ASW adalah ukuran koherensi solusi pengelompokan. Nilai ASW yang tinggi berarti bahwa cluster-cluster tersebut homogen (semua pengamatan dekat dengan pusat cluster), dan mereka terpisah dengan baik. Menurut Kaufmann dan Rousseuw (1990), nilai di bawah 0,25 berarti bahwa data tidak terstruktur. Antara 0,25 dan 0,5, data mungkin terstruktur, tetapi mungkin juga sebuah kecerdasan. Harap diingat bahwa nilai-nilai ini bersifat indikatif dan tidak boleh digunakan sebagai ambang keputusan. Nilai-nilai ini tidak didefinisikan secara teoritis (tidak didasarkan pada beberapa nilai-p) tetapi didasarkan pada pengalaman penulis. Oleh karena itu, menurut nilai ASW rendah ini, data Anda tampaknya sangat tidak terstruktur. Jika tujuan analisis kluster hanya deskriptif, maka Anda dapat membantah bahwa analisis ini mengungkapkan beberapa (tetapi hanya beberapa) dari pola yang paling menonjol. Namun,

Anda juga dapat mencoba melihat nilai ASW "per klaster" (ini diberikan oleh fungsi wcClusterQuality). Mungkin beberapa cluster Anda didefinisikan dengan baik dan beberapa mungkin "palsu" (ASW <0), menghasilkan nilai ASW keseluruhan yang rendah.

Anda dapat mencoba menggunakan strategi bootstrap, yang seharusnya memberi Anda petunjuk yang lebih baik. Di R, fungsi clusterbootdalam paket fpcdapat digunakan untuk tujuan ini (lihat halaman bantuan). Namun, itu tidak bekerja dengan data tertimbang. Jika data Anda tidak berbobot, saya pikir patut untuk dicoba.

Terakhir, Anda mungkin ingin melihat lebih dekat data dan kategorisasi Anda. Mungkin, kategori Anda terlalu tidak stabil atau tidak didefinisikan dengan baik. Namun, sepertinya tidak demikian di sini.

Seperti yang Anda katakan, "kurangnya kluster yang dibedakan secara jelas bukanlah hal yang sama dengan kurangnya variasi yang menarik". Ada metode lain untuk menganalisis variabilitas urutan Anda seperti analisis perbedaan. Metode ini memungkinkan Anda mempelajari hubungan antara urutan dan faktor penjelas. Anda dapat, misalnya, mencoba untuk membangun pohon regresi urutan (fungsi "seqtree" dalam paket TraMineR).

Matthias Studer
sumber