Apakah tes Kolmogorov-Smirnov valid dengan distribusi diskrit?

29

Saya membandingkan sampel dan memeriksa apakah itu terdistribusi sebagai beberapa, diskrit, distribusi. Namun, saya tidak yakin bahwa Kolmogorov-Smirnov berlaku. Wikipedia tampaknya menyiratkan tidak. Jika tidak, bagaimana saya bisa menguji distribusi sampel?

Wilhelm
sumber
+1 Contoh indah penerapan KS Test yang keliru pada data dengan (banyak) ikatan diberikan pada halaman bantuan untuk tambahan statistik Excel di real-statistics.com/non-parametric-tests/goodness-of-fit- tes / ... . Hasilnya salah karena berbagai alasan. Pengingat peringatan!
whuber
Tes-KS untuk distribusi nol diskrit tersedia: en.wikipedia.org/wiki/…
Astrid

Jawaban:

14

Itu tidak berlaku untuk distribusi diskrit. Lihat http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm misalnya.

Apakah ada alasan Anda tidak dapat menggunakan uji kelayakan chi-square? lihat http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm untuk info lebih lanjut.

PeterR
sumber
Maaf atas intrusi, tetapi saya tidak benar-benar mengerti mengapa itu hanya berlaku untuk distribusi kontinu (KS dan tes validasi lainnya). Adakah yang bisa menjelaskan fakta ini kepada saya?
Maurizio
6
@Maurizio - statistik uji KS memiliki distribusi yang sama di bawah semua distribusi kontinu , tetapi jika distribusi aktual tidak kontinu, dan seseorang mencoba untuk membangun tes level dengan asumsi distribusi kontinu, maka level tes yang sebenarnya dengan kurang dari . (lih. Lehmann & Romano Menguji Hipotesis Statistik, Edisi Ketiga , hlm. 584). Anda masih dapat membuat tes level berdasarkan statistik KS, tetapi Anda harus menemukan beberapa metode lain untuk mendapatkan nilai kritis, misalnya dengan simulasi. α αααα
DavidR
7

Seperti yang sering terjadi dalam statistik, itu tergantung pada apa yang Anda maksudkan .

  1. Jika Anda bermaksud "Saya menghitung statistik pengujian saya pada sampel yang diambil dari distribusi diskrit dan kemudian mencari tabel standar" maka Anda akan mendapatkan tingkat kesalahan tipe I yang benar lebih rendah daripada yang Anda pilih (mungkin jauh lebih rendah).

    Berapa banyak tergantung pada "seberapa terpisah" distribusinya. Jika probabilitas salah satu hasil cukup rendah (sehingga proporsi nilai terikat dalam data akan diharapkan rendah) maka itu tidak masalah banyak - banyak orang tidak akan memiliki masalah dengan menjalankan 5 % tes 4,5% mengatakan. Jadi misalnya, jika Anda menguji seragam diskrit pada [1.100], Anda mungkin tidak perlu khawatir.

    Tetapi jika ada probabilitas tinggi dari nilai yang diikat, maka efek pada tingkat kesalahan tipe I dapat ditandai. Jika Anda mendapatkan tingkat signifikansi 0,005 ketika Anda ingin 0,05, itu mungkin menjadi masalah, karena itu akan berdampak pada daya.

  2. Jika sebaliknya, Anda bermaksud "Saya menghitung statistik pengujian saya pada sampel yang diambil dari distribusi diskrit dan kemudian menggunakan nilai kritis yang sesuai / menghitung nilai p yang sesuai untuk situasi saya" (misalnya, melalui tes permutasi, misalnya), kemudian tes tentu saja valid dalam arti bahwa Anda akan mendapatkan tingkat kesalahan tipe I yang tepat - hingga ke diskresi statistik tes itu sendiri, tentu saja. (Meskipun mungkin ada tes yang lebih baik untuk tujuan khusus Anda, sama seperti biasanya ada dalam kasus berkelanjutan.)

    Perhatikan bahwa distribusi uji statistik itu sendiri tidak lagi bebas distribusi tetapi uji permutasi menghindari masalah itu.

Jadi kadang-kadang tidak apa-apa untuk menggunakan tabel standar bahkan dengan distribusi diskrit, dan bahkan ketika itu tidak apa-apa, itu tidak begitu banyak statistik uji sebagai nilai kritis / p-nilai yang Anda gunakan dengan itu yang menjadi masalah.

Glen_b -Reinstate Monica
sumber
Seperti biasa Glen, jawaban Anda berkualitas tinggi. Tapi mungkin bagian terbaik tentang itu adalah bahwa Anda benar-benar menggemakan lelucon yang saya buat di posting ini tentang ahli statistik yang mengatakan "itu tergantung"! stats.stackexchange.com/questions/182442/...
Sycorax mengatakan
1
@ user777 itu bukan kebetulan; itu menghibur saya, dan saya berpikir ketika saya membaca pertanyaan ini "baik, itu tergantung" ... jadi saya memastikan untuk mengatakannya secara eksplisit untuk menggemakan posting Anda.
Glen_b -Reinstate Monica
1
Malam saya menjadi lebih baik. Tepuk tangan!
Sycorax berkata Reinstate Monica
2

XFF(X)XXF(X)=X

F RA
sumber