Apakah masuk akal untuk melakukan tes Kolmogorov-Smirnov satu sisi?

15

Apakah bermakna dan mungkin untuk melakukan tes KS satu sisi? Apa hipotesis nol dari tes semacam itu? Atau apakah tes KS secara inheren merupakan tes dua sisi?

Saya akan mendapat manfaat dari jawaban yang membantu saya memahami distribusi D (Saya sedang mengerjakan makalah Massey tahun 1951, dan menemukan deskripsi yang menantang, misalnya dan D - supremum dan ketidakmungkinan perbedaan nilai non-absolut. perbedaan dalam CDF empiris?).D+D

Pertanyaan tindak lanjut : bagaimana nilai- untuk D + dan D - diperoleh? Begitu banyak publikasi saya menghadapi menyajikan nilai-nilai diajukan, bukan CDF dari D n , D + dan D -pD+DDnD+D- .

Pembaruan: Saya baru saja menemukan pertanyaan terkait Apa hipotesis nol dalam tes Kolmogorov-Smirnov satu sisi? , yang saya lewatkan pada pemindaian awal saya sebelum menulis yang ini.

Alexis
sumber

Jawaban:

20

Apakah bermakna dan mungkin untuk melakukan tes KS satu sisi?

Pastinya.

Apakah tes KS secara inheren merupakan tes dua sisi?

Tidak semuanya.

Apa hipotesis nol dari tes semacam itu?

Anda tidak memperjelas apakah Anda berbicara tentang uji satu sampel atau dua sampel. Jawaban saya di sini mencakup keduanya - jika Anda menganggap sebagai mewakili cdf populasi dari mana sampel X diambil, itu adalah dua sampel, sementara Anda mendapatkan satu sampel kasus dengan menganggap F X sebagai beberapa distribusi hipotesis ( F 0 , jika kamu memilih).FXXFXF0

Dalam beberapa kasus Anda dapat menulis null sebagai persamaan (mis. Jika tidak terlihat mungkin untuk sebaliknya), tetapi jika Anda ingin menulis null arah untuk alternatif satu arah, Anda dapat menulis sesuatu seperti ini :

H0:FY(t)FX(t)

H1:FY(t)<FX(t), untuk setidaknya satu t

(atau sebaliknya untuk ekor lainnya, secara alami)

Jika kita menambahkan asumsi ketika kita menggunakan tes bahwa mereka baik sama atau yang akan lebih kecil, maka penolakan nol menyiratkan (urutan pertama) stokastik pemesanan / urutan pertama dominasi stokastikFY . Dalam sampel yang cukup besar, dimungkinkan untuk F untuk menyeberang - bahkan beberapa kali, dan masih menolak tes satu sisi, sehingga asumsi sangat diperlukan untuk mempertahankan dominasi stokastik.

Longgar jika dengan ketidaksetaraan ketat untuk setidaknya beberapa t maka Y 'cenderung lebih besar' dari X .FY(t)FX(t)tYX

Menambahkan asumsi seperti ini tidak aneh; itu standar. Ini tidak terlalu berbeda dengan asumsi (katakan dalam ANOVA) bahwa perbedaan dalam cara adalah karena pergeseran seluruh distribusi (daripada perubahan dalam kemiringan, di mana beberapa distribusi bergeser ke bawah dan beberapa bergeser ke atas, tetapi dalam suatu cara yang berarti telah berubah).


Jadi mari kita pertimbangkan, misalnya, pergeseran mean untuk yang normal:

masukkan deskripsi gambar di sini

YXFYFX

Demikian pula, pertimbangkan perubahan skala dalam gamma:

masukkan deskripsi gambar di sini

Sekali lagi, pergeseran ke skala yang lebih besar menghasilkan F. yang lebih rendah. Sekali lagi, tes Kolmogorov-Smirnov satu sisi akan cenderung menolak dalam situasi ini.

Ada banyak situasi di mana tes semacam itu mungkin bermanfaat.


D+D

D+F0D is the maximum negative deviation - the biggest distance the ECDF is below F0). Both D+ and D are positive quantities:

enter image description here

A one tailed Kolmogorov-Smirnov test would look at either D+ or D depending on the direction of the alternative. Consider the one tailed one sample test:

H0:FY(t)F0(t)

H1:FY(t)<F0(t), for at least one t

To test this one - we want sensitivity to Y being stochastically larger than hypothesized (its true F is lower than F0). So unusually large values of D will tend to occur when the alternative is true. As a result, to test against the alternative FY(t)<F0(t), we use D in our one-tailed test.


Follow-up question: how are p-values for D+ and D obtained?

It's not a simple thing. There are a variety of approaches that have been used.

If I recall correctly one of the ways the distribution was obtained via the use of Brownian bridge processes (this document seems to support that recollection).

I believe this paper, and the paper by Marsaglia et al here both cover some of the background and give computational algorithms with lots of references.

Between those, you'll get a lot of the history and various approaches that have been used. If they don't cover what you need, you'll probably need to ask this as a new question.

So many of the publications I am encountering are presenting tabled values, rather than CDF of Dn, D+ and D

That's not particularly a surprise. If I remember right, even the asymptotic distribution is obtained as a series (this recollection would well be wrong), and in finite samples it's discrete and not in any simple form. In either case and there's no convenient way to present the information except as either a graph or a table.

Glen_b -Reinstate Monica
sumber
2
"In large enough samples, it's possible for the F's to cross - even several times, and still reject the one-sided test" – note that this means that you can reject the one-sided test in both directions for the same data!
Hao Ye
2
@HaoYe Yes, that's possible. It would be a clear indication that stochastic dominance would be untenable.
Glen_b -Reinstate Monica