Uji perbedaan antara 2 distribusi diskrit empiris

14

Saya memiliki data uji di mana saya memiliki beberapa sampel besar dari distribusi diskrit yang saya gunakan sebagai distribusi empiris. Saya ingin menguji apakah distribusi sebenarnya berbeda dan apa perbedaan artinya untuk distribusi yang sebenarnya berbeda.

Karena mereka adalah distribusi terpisah, pemahaman saya adalah bahwa uji Kolmogorov-Smirnov tidak valid karena asumsi distribusi berkelanjutan yang mendasarinya. Apakah tes Chi-Squared menjadi tes yang benar untuk apakah distribusi sebenarnya berbeda?

Tes apa yang akan saya gunakan untuk perbedaan cara? Apakah pendekatan yang lebih baik adalah dengan mengambil sampel dari distribusi dan mengambil perbedaan dan kemudian melakukan analisis pada distribusi perbedaan?

Wallhood
sumber
χ2
Terima kasih atas masukannya. Apakah ada tes untuk apa perbedaan artinya ketika uji chi-squared menegaskan bahwa distribusi berbeda?
Wallhood
Apakah pendekatan yang lebih baik adalah dengan mengambil sampel dari distribusi dan mengambil perbedaan dan kemudian melakukan analisis pada perbedaan?
Wallhood

Jawaban:

13

1) Kolmogorov-Smirnov masih dapat digunakan, tetapi jika Anda menggunakan nilai kritis yang ditabulasikan itu akan menjadi konservatif (yang hanya masalah karena menekan kurva daya Anda). Lebih baik untuk mendapatkan distribusi permutasi dari statistik, sehingga tingkat signifikansi Anda adalah apa yang Anda pilih. Ini hanya akan membuat perbedaan besar jika ada banyak ikatan. Perubahan ini sangat mudah diterapkan. (Tapi tes KS bukan satu-satunya perbandingan yang mungkin; jika seseorang menghitung distribusi permutasi, ada kemungkinan lain.)

2) uji kelayakan vanilla chi-square untuk data diskrit pada umumnya, menurut saya, adalah ide yang sangat buruk. Jika potensi kehilangan daya di atas menghentikan Anda menggunakan tes KS, masalah dengan chi-square seringkali jauh lebih buruk - itu membuang informasi yang paling penting, yang merupakan urutan di antara kategori (nilai observasi), mengempiskan kekuatannya dengan menyebarkannya di seluruh alternatif yang tidak mempertimbangkan pemesanan, sehingga lebih buruk dalam mendeteksi alternatif yang lancar - seperti perubahan lokasi dan skala misalnya). Bahkan dengan efek buruk dari ikatan berat di atas, uji KS dalam banyak kasus masih memiliki kekuatan yang lebih baik (sementara masih menurunkan tingkat kesalahan Tipe I).

Chi-square juga dapat dimodifikasi untuk memperhitungkan pemesanan (mempartisi chisquare menjadi komponen linier, kuadratik, kubik, dll. Melalui polinomial ortogonal dan hanya menggunakan beberapa istilah pesanan rendah - 4 sampai 6 adalah pilihan umum). Makalah karya Rayner dan Best (dan lainnya) membahas pendekatan ini, yang muncul dari tes mulus Neyman-Barton. Ini adalah pendekatan yang baik tetapi jika Anda tidak memiliki akses ke perangkat lunak untuk itu, mungkin perlu sedikit pengaturan.

Entah pendekatan yang dimodifikasi harus baik-baik saja, tetapi jika Anda tidak akan memodifikasi pendekatan mana pun, itu tidak selalu berarti bahwa chi-square akan lebih baik daripada tes KS - dalam beberapa situasi mungkin lebih baik ... atau itu mungkin jauh lebih buruk.

Jika ikatan tidak berat (yaitu ada banyak nilai berbeda yang diambil oleh data), saya akan menganggap KS apa adanya. Jika mereka moderat, saya akan melihat untuk menghitung distribusi permutasi. Jika mereka sangat berat (yaitu data hanya mengambil beberapa nilai berbeda), chi-square polos mungkin kompetitif.

Glen_b -Reinstate Monica
sumber
Terima kasih atas peringatannya. Saya akan mempertimbangkan itu ketika saya memutuskan untuk menggunakan tes KS atau Chi-Squared
Wallhood