Bagaimana cara menginterpretasikan nilai p dari uji Kolmogorov-Smirnov (python)?

30

Saya punya dua sampel yang ingin saya uji (menggunakan python) jika diambil dari distribusi yang sama. Untuk melakukan itu saya menggunakan fungsi statistik ks_2samp dari scipy.stats. Ini mengembalikan 2 nilai dan saya menemukan kesulitan bagaimana menafsirkannya. Tolonglah!

meri
sumber

Jawaban:

23

Seperti yang ditunjukkan oleh Stijn, uji ks mengembalikan statistik D dan nilai-p yang sesuai dengan statistik D. Statistik D adalah jarak maks absolut (supremum) antara CDF dari dua sampel. Semakin dekat angka ini dengan 0 semakin besar kemungkinan bahwa dua sampel diambil dari distribusi yang sama. Lihatlah halaman Wikipedia untuk tes ks. Ini memberikan penjelasan yang bagus: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Nilai p yang dikembalikan oleh uji ks memiliki interpretasi yang sama dengan nilai p lainnya. Anda menolak hipotesis nol bahwa dua sampel diambil dari distribusi yang sama jika nilai p kurang dari tingkat signifikansi Anda. Anda dapat menemukan tabel online untuk konversi statistik D menjadi nilai-p jika Anda tertarik dengan prosedur ini.

CrossValidatedTrading
sumber
Terima kasih atas jawaban Anda. Sebenarnya, saya tahu arti dari 2 nilai D dan nilai-P tetapi saya tidak bisa melihat hubungan di antara mereka. Bagaimana saya bisa menentukan tingkat signifikansi? Bisakah Anda memberi saya tautan untuk konversi statistik D menjadi nilai-p?
meri
Tentu, tabel untuk mengonversi D stat ke nilai-p: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading
@CrossValidatedTrading: Tautan Anda ke tabel D-stat-to-p-value sekarang 404.
james.garriss
@CrossValidatedTrading Haruskah ada hubungan antara nilai-p dan nilai-D dari uji KS 2-sisi? Dalam beberapa kasus, saya telah melihat hubungan proporsional, di mana statistik D meningkat dengan nilai-p. Kelihatannya sebaliknya: bahwa dua kurva dengan perbedaan yang lebih besar (statistik-D yang lebih besar), akan lebih berbeda secara signifikan (nilai-p rendah) ...
Thomas Matthew
jika nilai p> 0,05, maka dua sampel Anda harus identik dan seimbang.
user798719
5

Saat melakukan pencarian Google untuk ks_2samp, hit pertama adalah situs web ini . Di atasnya, Anda dapat melihat spesifikasi fungsi:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value
Stijn
sumber
Parameter a dan b adalah urutan data saya atau saya harus menghitung CDF untuk menggunakan ks_2samp?
meri
@meri: ada contoh di halaman yang saya tautkan.
Stijn