Berapa CDF dua sampel dari dan dari Tes Kolmogorov-Smirnov satu sisi?

9

Saya mencoba memahami cara mendapatkan nilai- untuk tes Kolmogorov-Smirnov satu sisi , dan saya berjuang untuk menemukan CDF untuk dan dalam kasus dua sampel. Di bawah ini dikutip di beberapa tempat sebagai CDF untuk dalam satu contoh kasus:pDn1,n2+Dn1,n2Dn+

pn+(x)=P(Dn+x|H0)=xj=0n(1x)(nj)(jn+x)j1(1xjn)nj

Juga, whuber sez ada formulasi yang sedikit berbeda dari CDF satu sampel ini (saya mengganti x untuk t dalam kutipannya untuk konsistensi dengan notasi saya di sini):

Dengan menggunakan transformasi integral probabilitas, Donald Knuth memperoleh distribusi (umum) mereka di hal. 57 dan latihan 17 dari TAoCP Volume 2. Saya kutip:

(Dn+xn)=xnnckx(nk)(kx)k(x+nk)nk1

Ini akan berlaku untuk hipotesis satu sisi dalam kasus satu sampel, seperti: H 0F(x)F00 , di mana F(x) adalah CDF empiris dari x , dan F0 beberapa CDF.

Saya pikir yang x dalam hal ini adalah nilai Dn+ dalam sampel seseorang, dan bahwa n(1x) adalah bilangan bulat terbesar di nnx . (Apakah itu benar?)

Tapi apa CDF untuk (atau ) ketika seseorang memiliki dua sampel? Misalnya, ketika H untuk CDF empiris dan ? Bagaimana cara memperoleh ? D - n 1 , n 2 0F A ( x ) - F B ( x ) 0 A B p + n 1 , n 2Dn1,n2+Dn1,n20FA(x)FB(x)0ABpn1,n2+

Alexis
sumber
1
Sama seperti petunjuk bagi siapa pun yang ingin menjawab pertanyaan ini - jawaban saya untuk pertanyaan Alexis sebelumnya (yang ditautkan dalam pertanyaan di atas) memiliki tautan ke beberapa referensi dengan beberapa diskusi tentang sejarah, masing-masing dengan sejumlah referensi yang relevan. Anda mungkin ingin memeriksa dokumen-dokumen itu dan daftar rujukannya.
Glen_b -Reinstate Monica
@Glen_b Terima kasih! Saya sangat menghargai jawaban Anda yang sangat baik untuk pertanyaan saya yang lain, dan memang mengikuti sumber yang dikutip, tetapi saya tidak mendapatkan daya tarik pada CDF untuk sana, dan bukannya merusak komentar saya pikir saya hanya akan membuka permintaan baru . Referensi tambahan diterima, jika Anda tahu ada yang akan berhasil untuk ini. D+
Alexis
Alexis: tidak ada kritik yang dimaksudkan oleh komentar saya; pilihan Anda untuk membuka pertanyaan baru benar (menurut saya). Saya hanya ingin menyelamatkan sedikit kerja keras orang dalam melacak beberapa referensi yang relevan - saya pikir mungkin tidak semua orang mengikuti tautan Anda ke pertanyaan lain, dan mungkin tidak terjadi pada orang-orang yang melakukan tautan di saya Jawabannya memiliki beberapa referensi yang mungkin ingin mereka ketahui.
Glen_b -Reinstate Monica

Jawaban:

6

Ok, saya akan menikam ini. Wawasan kritis diterima.

Pada halaman 192 Gibbons dan Chakraborti (1992), dengan mengutip Hodges, 1958, mulailah dengan sampel kecil (tepatnya?) CDF untuk pengujian dua sisi (saya menukar notasi dan untuk dan , masing-masing):d n 1 , n 2 xm,ndn1,n2x

P(Dn1,n2x)=1P(Dn1,n2x)=1A(n1,n2)(n1+n2n1)

Di mana dihasilkan melalui enumerasi lintasan (meningkat secara monoton dalam dan ) dari titik asal ke titik melalui grafik dengan — mengganti untuk — nilai x- sumbu dan y- sumbu adalah dan . Jalur selanjutnya harus mematuhi batasan tetap di dalam batas (di mana adalah nilai statistik uji Kolmogorov-Smirnov): n 1 n 2 ( n 1 , n 2 ) S m ( x ) F n 1 ( x ) n 1 F 1 ( x ) n 2 F 2 ( x ) xA(n1,n2)n1n2(n1,n2)Sm(x)Fn1(x)n1F1(x)n2F2(x)x

n2n1±(n1+n2)x(n1+n2n1)

Di bawah ini adalah gambar mereka Gambar 3.2 memberikan contoh untuk , dengan 12 jalur tersebut:A(3,4)

Gambar 3.2 dari halaman 193 Gibbons and Chakraborti (1992) Nonparametric Statistics Inference.

Owa dan Chakaborti pergi dengan mengatakan bahwa satu sisi -nilai diperoleh dengan menggunakan metode grafis yang sama, tetapi dengan hanya batas bawah untuk , dan hanya bagian atas untuk .D + n 1 , n 2 D - n 1 , n 2pDn1,n2+Dn1,n2

Pendekatan sampel kecil ini memerlukan algoritma enumerasi jalur dan / atau hubungan perulangan, yang tidak diragukan lagi membuat perhitungan asimptotik diinginkan. Gibbons dan Chakraborti juga mencatat membatasi sebagai dan mendekati infinity, dari : n 2 D n 1 , n 2n1n2Dn1,n2

limn1,n2P(n1n2n1+n2Dn1,n2x)=12i=1(1)i1e2i2x2

Dan mereka memberikan CDF pembatas dari (atau ) sebagai:Dn1,n2+Dn1,n2

limn1,n2P(n1n2n1+n2Dn1,n2+x)=1e2x2

Karena dan benar-benar non-negatif, CDF hanya dapat mengambil nilai bukan nol di atas : D - [ 0 , )D+D[0,)

CDF dari $ D ^ {+} $ (atau $ D ^ {-} $)


Referensi
Gibbons, JD dan Chakraborti, S. (1992). Inferensi Statistik Nonparametrik . Marcel Decker, Inc., edisi ke-3, edisi yang direvisi dan diperluas.

Hodges, JL (1958). Probabilitas signifikansi dari uji dua sampel Smirnov. Arkiv untuk matematik . 3 (5): 469--486.

Alexis
sumber
1
Cdf aktual ada di mana-mana, tetapi untuk cdf akan menjadi nol; bentuk fungsional yang Anda berikan hanya berlaku untuk (ini dapat diterima dengan alasan sederhana; apa ?x 0 P ( D + < 0 )(,0)x0P(D+<0)
Glen_b -Reinstate Monica