Pemberitahuan setelah tabel ANOVA setelah analisis K-means menunjukkan bahwa tingkat signifikansi tidak boleh dilihat sebagai uji sarana yang sama, karena solusi klaster telah diturunkan berdasarkan jarak Euclidean untuk memaksimalkan jarak. Tes apa yang harus saya gunakan untuk menunjukkan apakah rata-rata variabel pengelompokan berbeda di antara kluster? Saya telah melihat peringatan ini dalam tabel ANOVA k-means keluaran yang disediakan, tetapi dalam beberapa referensi saya melihat bahwa tes ANOVA post-hoc dijalankan. Haruskah saya mengabaikan hasil ANOVA k-mean dan menjalankan ANOVA satu arah dengan tes post-hoc dan menafsirkannya dengan cara tradisional? Atau bisakah saya hanya menyiratkan tentang besarnya nilai F dan variabel mana yang berkontribusi lebih besar terhadap perbedaan? Kebingungan lainnya adalah bahwa variabel cluster tidak terdistribusi secara normal melanggar asumsi ANOVA, maka saya bisa menggunakan tes non-parametrik Kruskal-Wallis, tetapi memiliki asumsi tentang distribusi yang sama. Distribusi antar-kluster untuk variabel spesifik tidak tampak sama, ada yang condong positif, ada yang negatif ... Saya punya 1.275 sampel besar, 5 klaster, 10 variabel klaster yang diukur dalam skor PCA.
14
Jawaban:
Tidak!
Anda tidak boleh menggunakan data yang sama untuk 1) melakukan pengelompokan dan 2) mencari perbedaan yang signifikan antara titik-titik dalam kelompok. Bahkan jika tidak ada struktur aktual dalam data, pengelompokan akan memaksakan satu dengan mengelompokkan titik-titik yang berdekatan. Ini mengecilkan varians dalam-grup dan menumbuhkan varians lintas-grup, yang bias Anda terhadap positif palsu.
Tidak ada yang istimewa tentang ANOVA di sini - Anda akan melihat efek serupa menggunakan tes non-parametrik, regresi logistik, apa pun. Secara umum, memvalidasi kinerja algoritma pengelompokan itu rumit, terutama jika data tidak diberi label. Namun, ada beberapa pendekatan untuk "validasi internal", atau mengukur kualitas cluster tanpa menggunakan sumber data eksternal. Mereka umumnya fokus pada kekompakan dan keterpisahan cluster. Ini tinjauan oleh Lui et al. (2010) mungkin tempat yang bagus untuk memulai.
sumber
Masalah Anda sebenarnya adalah pengintai data. Anda tidak dapat menerapkan ANOVA atau KW jika pengamatan ditugaskan ke grup (cluster) berdasarkan data input yang disetel sendiri. Yang bisa Anda lakukan adalah menggunakan statistik Gap untuk memperkirakan jumlah cluster.
Di sisi lain, nilai-p yang diintai bias ke bawah, jadi jika hasil uji ANOVA atau KW tidak signifikan, maka nilai-p "benar" bahkan lebih besar dan Anda dapat memutuskan untuk menggabungkan cluster.
sumber
Saya pikir Anda bisa menerapkan pendekatan seperti itu (yaitu menggunakan statistik, seperti F-statistik atau t-statistik atau apa pun), jika Anda membuang distribusi nol yang biasa .
Yang perlu Anda lakukan adalah mensimulasikan dari situasi di mana null Anda benar, terapkan seluruh prosedur (pengelompokan, dll), lalu hitung statistik mana saja setiap kali. Diterapkan pada banyak simulasi, Anda akan mendapatkan distribusi statistik di bawah nol yang dibandingkan dengan nilai sampel Anda. Dengan memasukkan pengintaian data ke dalam perhitungan, Anda memperhitungkan efeknya.
[Atau orang mungkin bisa mengembangkan tes berbasis resampling (apakah berdasarkan permutasi / pengacakan atau bootstrap).]
sumber