Mengapa statistik p-value dan ks-test menurun dengan meningkatnya ukuran sampel? Ambil kode Python ini sebagai contoh:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Hasilnya adalah:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Secara intuitif saya mengerti bahwa ketika n tumbuh, tes ini "lebih yakin" kedua distribusi berbeda. Tetapi jika ukuran sampel sangat besar, apa gunanya tes kesamaan seperti ini dan mengatakan uji Anderson Darling, atau uji-t, karena dalam kasus seperti itu ketika n sangat besar, distribusi akan selalu ditemukan sebagai "signifikan" berbeda !? Sekarang saya bertanya-tanya apa gunanya nilai-p. Itu sangat tergantung pada ukuran sampel ... jika p> 0,05 dan Anda ingin lebih rendah, dapatkan lebih banyak data; dan jika p <0,05 dan Anda ingin menjadi lebih tinggi, cukup hapus beberapa data.
Juga, jika dua distribusi itu identik, statistik uji ks akan menjadi 0 dan nilai p 1. Namun dalam contoh saya, ketika n meningkatkan statistik uji ks, distribusi menjadi lebih dan lebih mirip dengan waktu (berkurang) , tetapi menurut nilai-p mereka menjadi lebih dan berbeda dengan waktu (juga berkurang).
Jawaban:
Statistik pengujian berkurang karena distribusi Anda sangat mirip dan sampel yang lebih besar memiliki lebih sedikit noise. Jika Anda membandingkan dua distribusi teoritis yang Anda gunakan, Anda harus mendapatkan statistik KS "benar". Saat Anda menambahkan lebih banyak data, perkiraan statistik KS Anda harus mendekati nilai sebenarnya ini. Namun, bahkan ketika statistik KS Anda menurun, kepercayaan diri Anda meningkat bahwa mereka sebenarnya adalah dua distribusi yang berbeda (yaitu nilai-p menurun) karena Anda memiliki kepercayaan diri yang lebih besar dalam perkiraan distribusi masing-masing.
sumber
Pada catatan praktis: Mendapatkan lebih banyak data tidak semudah itu (saya suka). Menghapus data hanya untuk mendapatkan nilai yang Anda inginkan adalah penipuan akademik, dan jika Anda tertangkap Anda dalam masalah.p
Namun, Anda benar bahwa -nilai sendiri memiliki nilai terbatas. Paling-paling itu hanya permulaan analisis Anda dan tentu saja bukan akhir. Untuk lebih lanjut lihat pernyataan oleh ASA pada nilai .p p
sumber