Tes Kolmogorov – Smirnov: statistik p-value dan ks-test menurun ketika ukuran sampel meningkat

11

Mengapa statistik p-value dan ks-test menurun dengan meningkatnya ukuran sampel? Ambil kode Python ini sebagai contoh:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Hasilnya adalah:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Secara intuitif saya mengerti bahwa ketika n tumbuh, tes ini "lebih yakin" kedua distribusi berbeda. Tetapi jika ukuran sampel sangat besar, apa gunanya tes kesamaan seperti ini dan mengatakan uji Anderson Darling, atau uji-t, karena dalam kasus seperti itu ketika n sangat besar, distribusi akan selalu ditemukan sebagai "signifikan" berbeda !? Sekarang saya bertanya-tanya apa gunanya nilai-p. Itu sangat tergantung pada ukuran sampel ... jika p> 0,05 dan Anda ingin lebih rendah, dapatkan lebih banyak data; dan jika p <0,05 dan Anda ingin menjadi lebih tinggi, cukup hapus beberapa data.

Juga, jika dua distribusi itu identik, statistik uji ks akan menjadi 0 dan nilai p 1. Namun dalam contoh saya, ketika n meningkatkan statistik uji ks, distribusi menjadi lebih dan lebih mirip dengan waktu (berkurang) , tetapi menurut nilai-p mereka menjadi lebih dan berbeda dengan waktu (juga berkurang).

Oliver Angelil
sumber
Lihat Apakah pengujian normal 'pada dasarnya tidak berguna'? . Perhatikan bahwa apa yang Anda katakan tidak sepenuhnya benar: jika distribusi sebenarnya identik, distribusi nilai-p tetap seragam bahkan saat Anda menambah ukuran sampel.
Scortchi
2
Saya punya masalah yang mungkin terkait dengan yang ini: stats.stackexchange.com/questions/301628/... Ini membuat saya sangat skeptis tentang tes ini.
Aleksandar Jovanovic
Memang benar, dengan data yang cukup, Anda dapat menunjukkan bahwa ukuran efek yang kecil, tetapi tidak nol, secara statistik signifikan. Kuncinya di sini adalah mengenali perbedaan antara signifikansi statistik dan signifikansi praktis. Untuk mengutip Homer Simpson, "Anda dapat menggunakan nilai-p untuk membuktikan apa pun yang bahkan benar".
Nuclear Wang

Jawaban:

4

Statistik pengujian berkurang karena distribusi Anda sangat mirip dan sampel yang lebih besar memiliki lebih sedikit noise. Jika Anda membandingkan dua distribusi teoritis yang Anda gunakan, Anda harus mendapatkan statistik KS "benar". Saat Anda menambahkan lebih banyak data, perkiraan statistik KS Anda harus mendekati nilai sebenarnya ini. Namun, bahkan ketika statistik KS Anda menurun, kepercayaan diri Anda meningkat bahwa mereka sebenarnya adalah dua distribusi yang berbeda (yaitu nilai-p menurun) karena Anda memiliki kepercayaan diri yang lebih besar dalam perkiraan distribusi masing-masing.

adam.r
sumber
3

Pada catatan praktis: Mendapatkan lebih banyak data tidak semudah itu (saya suka). Menghapus data hanya untuk mendapatkan nilai yang Anda inginkan adalah penipuan akademik, dan jika Anda tertangkap Anda dalam masalah.p

Namun, Anda benar bahwa -nilai sendiri memiliki nilai terbatas. Paling-paling itu hanya permulaan analisis Anda dan tentu saja bukan akhir. Untuk lebih lanjut lihat pernyataan oleh ASA pada nilai . pp

Maarten Buis
sumber
Terima kasih untuk referensi, tetapi saya masih tidak yakin mengapa statistik ks-test menurun semakin besar n.
Oliver Angelil