Saya mensurvei penggunaan uji signifikansi statistik (SST) untuk memvalidasi hasil analisis cluster. Saya telah menemukan beberapa makalah tentang topik ini, seperti
- " Signifikansi Statistik Clustering untuk Dimensi Tinggi, Data Ukuran Sampel Kecil " oleh Liu, Yufeng et al. (2008)
- " Pada beberapa tes signifikansi dalam analisis klaster ", oleh Bock (1985)
Tetapi saya tertarik untuk menemukan beberapa literatur dengan alasan bahwa SST TIDAK sesuai untuk memvalidasi hasil analisis cluster. Satu-satunya sumber yang saya temukan mengklaim ini adalah halaman web dari vendor perangkat lunak
Untuk memperjelas:
Saya tertarik untuk menguji apakah struktur cluster yang signifikan telah ditemukan sebagai hasil dari analisis cluster, jadi, saya ingin mengetahui makalah yang mendukung atau menyangkal kekhawatiran "tentang kemungkinan pengujian post-hoc dari hasil data eksplorasi. analisis yang digunakan untuk menemukan cluster ".
Saya baru saja menemukan makalah dari tahun 2003, " Metode pengelompokan dan klasifikasi " oleh Milligan dan Hirtle yang mengatakan, misalnya, bahwa menggunakan ANOVA akan menjadi analisis yang tidak valid karena data belum memiliki penugasan acak ke grup.
Jawaban:
Sangat jelas bahwa Anda tidak dapat (secara naif) menguji perbedaan dalam distribusi untuk kelompok yang didefinisikan menggunakan data yang sama. Ini dikenal sebagai "pengujian selektif", "pencelupan ganda", "inferensi melingkar", dll.
Contohnya adalah melakukan uji-t pada ketinggian orang "tinggi" dan "pendek" dalam data Anda. Nol akan (hampir) selalu ditolak.
Setelah mengatakan bahwa - seseorang memang bisa menjelaskan tahap pengelompokan pada tahap pengujian. Namun, saya tidak terbiasa dengan referensi tertentu yang melakukan itu, tetapi saya menduga ini harus dilakukan.
sumber
Alih-alih pengujian hipotesis dengan tes yang diberikan, saya akan merekomendasikan cara bootstrap atau perkiraan ringkasan lainnya di antara kluster. Misalnya Anda bisa mengandalkan bootstrap persentil dengan setidaknya 1000 sampel. Poin kuncinya adalah menerapkan pengelompokan secara independen ke setiap sampel bootstrap.
Pendekatan ini akan sangat kuat, memberikan bukti untuk perbedaan, dan mendukung klaim Anda tentang perbedaan antar-cluster yang signifikan. Selain itu, Anda dapat menghasilkan variabel lain (katakanlah perbedaan antar-kluster) dan perkiraan bootstrap dari variabel perbedaan tersebut akan serupa dengan tes formal hipotesis.
sumber