Saya menggunakan uji dua sampel Kolmogorov-Smirnov untuk membandingkan distribusi, dan saya perhatikan nilai- sering dilaporkan sebagai statistik uji. Bagaimana nilai- ini ditentukan? Saya tahu ini probabilitas mendapatkan hasil setidaknya sebesar yang diperoleh, tetapi bagaimana nilai- ini ditentukan mengingat ini adalah tes nonparametrik? Yaitu, kita tidak dapat mengasumsikan fluktuasi Gaussian dalam distribusi dan menghitung -value menggunakan -test.
Terima kasih!
kolmogorov-smirnov
C. Reed
sumber
sumber
Jawaban:
Di bawah hipotesis nol, distribusi asimtotik dari statistik dua sampel Kolmogorov-Smirnov adalah distribusi Kolmogorov, yang memiliki CDF
Nilai- dapat dihitung dari CDF ini - lihat Bagian 4 dan Bagian 2 dari halaman Wikipedia pada tes Kolmogorov – Smirnov.p
Anda tampaknya mengatakan bahwa statistik uji non-parametrik tidak boleh memiliki distribusi - bukan itu masalahnya - yang membuat tes ini non-parametrik adalah bahwa distribusi statistik uji tidak bergantung pada kemungkinan berkesinambungan distribusi data asli berasal dari. Perhatikan bahwa tes KS memiliki properti ini bahkan untuk sampel terbatas seperti yang ditunjukkan oleh @ cardinal dalam komentar.
sumber
Nilai p, katakanlah 0,80, menyiratkan bahwa 80% sampel ukuran n sampel dari populasi, akan memiliki statistik D lebih kecil dari yang diperoleh dari tes. Ini dihitung berdasarkan statistik D uji KS, yang mengukur jarak maksimum antara CDF dari distribusi teoritis dan empiris, untuk distribusi yang diberikan terhadap sampel yang dievaluasi.
Perhatikan bahwa hanya nilai D * SQRT (ukuran sampel) yang memiliki distribusi kolmogrov dan bukan D itu sendiri. Jika Anda ingin menghitung nilai p yang diberikan nilai D secara manual, Anda dapat merujuk tabel yang diterbitkan yang tersedia di internet untuk distribusi kolomogrov. Ini juga nilai yang diberikan dalam paket seperti R
sumber