Saya mencoba memahami cara mendapatkan nilai- untuk tes Kolmogorov-Smirnov satu sisi , dan saya berjuang untuk menemukan CDF untuk dan dalam kasus dua sampel. Di bawah ini dikutip di beberapa tempat sebagai CDF untuk dalam satu contoh kasus:
Juga, whuber sez ada formulasi yang sedikit berbeda dari CDF satu sampel ini (saya mengganti untuk dalam kutipannya untuk konsistensi dengan notasi saya di sini):
Dengan menggunakan transformasi integral probabilitas, Donald Knuth memperoleh distribusi (umum) mereka di hal. 57 dan latihan 17 dari TAoCP Volume 2. Saya kutip:
Ini akan berlaku untuk hipotesis satu sisi dalam kasus satu sampel, seperti: H , di mana adalah CDF empiris dari , dan beberapa CDF.
Saya pikir yang dalam hal ini adalah nilai dalam sampel seseorang, dan bahwa adalah bilangan bulat terbesar di . (Apakah itu benar?)
Tapi apa CDF untuk (atau ) ketika seseorang memiliki dua sampel? Misalnya, ketika H untuk CDF empiris dan ? Bagaimana cara memperoleh ? D - n 1 , n 2 0 : F A ( x ) - F B ( x ) ≤ 0 A B p + n 1 , n 2
sumber
Jawaban:
Ok, saya akan menikam ini. Wawasan kritis diterima.
Pada halaman 192 Gibbons dan Chakraborti (1992), dengan mengutip Hodges, 1958, mulailah dengan sampel kecil (tepatnya?) CDF untuk pengujian dua sisi (saya menukar notasi dan untuk dan , masing-masing):d n 1 , n 2 xm,n d n1,n2 x
Di mana dihasilkan melalui enumerasi lintasan (meningkat secara monoton dalam dan ) dari titik asal ke titik melalui grafik dengan — mengganti untuk — nilai x- sumbu dan y- sumbu adalah dan . Jalur selanjutnya harus mematuhi batasan tetap di dalam batas (di mana adalah nilai statistik uji Kolmogorov-Smirnov): n 1 n 2 ( n 1 , n 2 ) S m ( x ) F n 1 ( x ) n 1 F 1 ( x ) n 2 F 2 ( x ) xA(n1,n2) n1 n2 (n1,n2) Sm(x) Fn1(x) n1F1(x) n2F2(x) x
Di bawah ini adalah gambar mereka Gambar 3.2 memberikan contoh untuk , dengan 12 jalur tersebut:A(3,4)
Owa dan Chakaborti pergi dengan mengatakan bahwa satu sisi -nilai diperoleh dengan menggunakan metode grafis yang sama, tetapi dengan hanya batas bawah untuk , dan hanya bagian atas untuk .D + n 1 , n 2 D - n 1 , n 2p D+n1,n2 D−n1,n2
Pendekatan sampel kecil ini memerlukan algoritma enumerasi jalur dan / atau hubungan perulangan, yang tidak diragukan lagi membuat perhitungan asimptotik diinginkan. Gibbons dan Chakraborti juga mencatat membatasi sebagai dan mendekati infinity, dari : n 2 D n 1 , n 2n1 n2 Dn1,n2
Dan mereka memberikan CDF pembatas dari (atau ) sebagai:D+n1,n2 D−n1,n2
Karena dan benar-benar non-negatif, CDF hanya dapat mengambil nilai bukan nol di atas : D - [ 0 , ∞ )D+ D− [0,∞)
Referensi
Gibbons, JD dan Chakraborti, S. (1992). Inferensi Statistik Nonparametrik . Marcel Decker, Inc., edisi ke-3, edisi yang direvisi dan diperluas.
Hodges, JL (1958). Probabilitas signifikansi dari uji dua sampel Smirnov. Arkiv untuk matematik . 3 (5): 469--486.
sumber