Kesesuaian ANOVA setelah analisis klaster k-means

14

Pemberitahuan setelah tabel ANOVA setelah analisis K-means menunjukkan bahwa tingkat signifikansi tidak boleh dilihat sebagai uji sarana yang sama, karena solusi klaster telah diturunkan berdasarkan jarak Euclidean untuk memaksimalkan jarak. Tes apa yang harus saya gunakan untuk menunjukkan apakah rata-rata variabel pengelompokan berbeda di antara kluster? Saya telah melihat peringatan ini dalam tabel ANOVA k-means keluaran yang disediakan, tetapi dalam beberapa referensi saya melihat bahwa tes ANOVA post-hoc dijalankan. Haruskah saya mengabaikan hasil ANOVA k-mean dan menjalankan ANOVA satu arah dengan tes post-hoc dan menafsirkannya dengan cara tradisional? Atau bisakah saya hanya menyiratkan tentang besarnya nilai F dan variabel mana yang berkontribusi lebih besar terhadap perbedaan? Kebingungan lainnya adalah bahwa variabel cluster tidak terdistribusi secara normal melanggar asumsi ANOVA, maka saya bisa menggunakan tes non-parametrik Kruskal-Wallis, tetapi memiliki asumsi tentang distribusi yang sama. Distribusi antar-kluster untuk variabel spesifik tidak tampak sama, ada yang condong positif, ada yang negatif ... Saya punya 1.275 sampel besar, 5 klaster, 10 variabel klaster yang diukur dalam skor PCA.

Inga
sumber
Mengapa Anda perlu menguji persamaan cara? Tidak bisakah Anda hanya menguji bagaimana model Anda bekerja dari sampel?
James
Saya ingin menentukan variabel mana yang berarti berbeda di antara cluster, yaitu apakah rata-rata v1 di cluster1 berbeda dari rata-rata v1 di cluster, 2, 3, 4, 5. Tentu saja saya dapat melihat bahwa dengan membuat grafik, tetapi tidak memberi tahu tentang perbedaan statistik. Tes untuk perbedaan statistik membuat saya bingung, karena untuk ANOVA data saya tidak memenuhi asumsi distribusi normal, tetapi untuk uji Kruskal Wallis asumsi bentuk distribusi yang sama antara kelompok-kelompok cluster.
Inga
1
Seperti @James menunjuk pada jawabannya, Anda "mengintip". Apa yang bisa menjadi alasan untuk menguji signifikansi antara kelompok yang Anda (pengelompokan Anda) pilih sejauh mungkin berbeda? Di sini tidak ada tanda pengambilan sampel acak atau proporsional dari populasi yang berbeda berdasarkan beberapa karakteristik backgroud eksternal .
ttnphns
Terima kasih atas jawabannya! Kebingungan saya muncul seperti pada beberapa sumber saya melihat bahwa perbandingan rata-rata statistik tidak sesuai dalam situasi ini seperti yang telah Anda tunjukkan, tetapi misalnya kutipan dari 1 buku bab menunjukkan sebaliknya: "kami biasanya memeriksa sarana untuk setiap klaster pada setiap dimensi menggunakan ANOVA untuk menilai betapa berbedanya kluster kami. Idealnya, kami akan memperoleh cara yang sangat berbeda untuk sebagian besar, jika tidak semua dimensi, digunakan dalam analisis. Besarnya nilai F yang dilakukan pada setiap dimensi adalah indikasi seberapa baik masing-masing dimensi membedakan antara cluster "
Inga
1
Anda memiliki hak untuk menilai perbedaan antara cluster berdasarkan karakteristik yang digunakan untuk cluster - untuk mengetahui yang paling diskriminatif. Saat melakukannya, Anda dapat menghitung perbedaan relatif, nilai F, dan bahkan nilai p. Sebagai indikator ukuran efek. Bukan sebagai indikator signifikansi statistik (yang merujuk pada populasi).
ttnphns

Jawaban:

13

Tidak!

Anda tidak boleh menggunakan data yang sama untuk 1) melakukan pengelompokan dan 2) mencari perbedaan yang signifikan antara titik-titik dalam kelompok. Bahkan jika tidak ada struktur aktual dalam data, pengelompokan akan memaksakan satu dengan mengelompokkan titik-titik yang berdekatan. Ini mengecilkan varians dalam-grup dan menumbuhkan varians lintas-grup, yang bias Anda terhadap positif palsu.

k

Hasil simulasi menunjukkan distribusi palu yang seragam untuk penugasan acak dan distribusi nilai p yang sangat miring (hampir semuanya 0,05 atau kurang) setelah pengelompokan

Tidak ada yang istimewa tentang ANOVA di sini - Anda akan melihat efek serupa menggunakan tes non-parametrik, regresi logistik, apa pun. Secara umum, memvalidasi kinerja algoritma pengelompokan itu rumit, terutama jika data tidak diberi label. Namun, ada beberapa pendekatan untuk "validasi internal", atau mengukur kualitas cluster tanpa menggunakan sumber data eksternal. Mereka umumnya fokus pada kekompakan dan keterpisahan cluster. Ini tinjauan oleh Lui et al. (2010) mungkin tempat yang bagus untuk memulai.

Matt Krause
sumber
4

Masalah Anda sebenarnya adalah pengintai data. Anda tidak dapat menerapkan ANOVA atau KW jika pengamatan ditugaskan ke grup (cluster) berdasarkan data input yang disetel sendiri. Yang bisa Anda lakukan adalah menggunakan statistik Gap untuk memperkirakan jumlah cluster.

Di sisi lain, nilai-p yang diintai bias ke bawah, jadi jika hasil uji ANOVA atau KW tidak signifikan, maka nilai-p "benar" bahkan lebih besar dan Anda dapat memutuskan untuk menggabungkan cluster.

James
sumber
4

Saya pikir Anda bisa menerapkan pendekatan seperti itu (yaitu menggunakan statistik, seperti F-statistik atau t-statistik atau apa pun), jika Anda membuang distribusi nol yang biasa .

Yang perlu Anda lakukan adalah mensimulasikan dari situasi di mana null Anda benar, terapkan seluruh prosedur (pengelompokan, dll), lalu hitung statistik mana saja setiap kali. Diterapkan pada banyak simulasi, Anda akan mendapatkan distribusi statistik di bawah nol yang dibandingkan dengan nilai sampel Anda. Dengan memasukkan pengintaian data ke dalam perhitungan, Anda memperhitungkan efeknya.

[Atau orang mungkin bisa mengembangkan tes berbasis resampling (apakah berdasarkan permutasi / pengacakan atau bootstrap).]

Glen_b -Reinstate Monica
sumber
2
Benar, itulah ide di balik statistik Gap.
James