Mengapa nilai-p terdistribusi secara seragam di bawah hipotesis nol?

115

Baru-baru ini, saya menemukan di sebuah makalah oleh Klammer, et al. pernyataan bahwa nilai-p harus didistribusikan secara seragam. Saya percaya pada penulis, tetapi tidak bisa mengerti mengapa demikian.

Klammer, AA, Park, CY, dan Stafford Noble, W. (2009) Kalibrasi Statistik Fungsi SEQUEST XCorr . Jurnal Penelitian Proteome . 8 (4): 2106–2113.

golobor
sumber
24
Ini langsung dari definisi nilai-p sebagai transformasi integral probabilitas dari statistik uji menggunakan distribusi di bawah hipotesis nol. Kesimpulannya mensyaratkan bahwa distribusi harus kontinu. Ketika distribusinya diskrit (atau memiliki atom), distribusi nilai-p juga diskrit, dan oleh karena itu hanya dapat kira-kira seragam.
whuber
1
@whuber memberikan jawaban yang merupakan sesuatu yang saya curigai. Saya bertanya referensi asli hanya untuk memastikan bahwa ada sesuatu yang tidak hilang dalam terjemahan. Biasanya tidak masalah apakah artikel itu spesifik atau tidak, konten statistik selalu terlihat melalui :)
mpiktas
10
Hanya ketika benarH0 ! ... dan lebih tepatnya, hanya ketika terus menerus (meskipun sesuatu seperti itu benar dalam kasus non-terus menerus; Saya tidak tahu kata yang tepat untuk kasus yang paling umum; ini bukan keseragaman). Kemudian itu mengikuti dari definisi nilai-p.
Glen_b
2
Ini dapat dilihat sebagai varian dari prinsip mekanika statistik dasar (bahwa siswa sering memiliki kesulitan yang sama menerima) bahwa semua keadaan mikro dari sistem fisik memiliki probabilitas yang sama.
DWin
5
Bagaimana dengan klaim dalam artikel ini: plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010 ?

Jawaban:

83

Untuk memperjelas sedikit. Nilai p terdistribusi secara seragam ketika hipotesis nol benar dan semua asumsi lain dipenuhi. Alasan untuk ini adalah definisi alpha sebagai probabilitas kesalahan tipe I. Kami ingin probabilitas menolak hipotesis nol sejati menjadi alpha, kami menolak ketika diamati , satu-satunya cara ini terjadi untuk nilai alpha adalah ketika nilai-p berasal dari seragam distribusi. Inti dari menggunakan distribusi yang benar (normal, t, f, chisq, dll.) Adalah untuk mengubah dari statistik uji ke nilai p yang seragam. Jika hipotesis nol salah, maka distribusi nilai-p (semoga) akan lebih berbobot menuju 0.p-value<α

The Pvalue.norm.simdan Pvalue.binom.simfungsi dalam TeachingDemos paket untuk R akan mensimulasikan beberapa set data, menghitung p-nilai dan plot mereka untuk menunjukkan ide ini.

Lihat juga:

Murdoch, D, Tsai, Y, dan Adcock, J (2008). Nilai-P adalah Variabel Acak. The American Statistician , 62 , 242-245.

untuk lebih jelasnya.

Sunting:

Karena orang masih membaca jawaban dan komentar ini, saya pikir saya akan membahas komentar @ whuber.

Memang benar bahwa ketika menggunakan hipotesis nol komposit seperti bahwa nilai-p hanya akan terdistribusi secara seragam ketika 2 rata-rata sama persis dan tidak akan seragam jika adalah nilai yang kurang dari . Ini dapat dengan mudah dilihat menggunakan fungsi dan pengaturannya untuk melakukan tes satu sisi dan mensimulasikan dengan simulasi dan hipotesis berarti berbeda (tetapi dalam arah untuk membuat nol benar).μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

Sejauh teori statistik berjalan, ini tidak masalah. Pertimbangkan jika saya mengklaim bahwa saya lebih tinggi daripada setiap anggota keluarga Anda, satu cara untuk menguji klaim ini adalah dengan membandingkan tinggi saya dengan tinggi setiap anggota keluarga Anda satu per satu. Pilihan lain adalah menemukan anggota keluarga Anda yang tertinggi dan membandingkan tinggi badan mereka dengan milik saya. Jika saya lebih tinggi dari satu orang itu maka saya juga lebih tinggi dari yang lain dan klaim saya benar, jika saya tidak lebih tinggi dari satu orang itu maka klaim saya salah. Menguji null komposit dapat dilihat sebagai proses yang serupa, daripada menguji semua kemungkinan kombinasi di mana kita dapat menguji hanya bagian kesetaraan karena jika kita dapat menolaknya mendukungμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2maka kita tahu bahwa kita juga dapat menolak semua kemungkinan . Jika kita melihat distribusi nilai-p untuk kasus-kasus di mana maka distribusi tidak akan seragam sempurna tetapi akan memiliki nilai lebih dekat ke 1 daripada ke 0 yang berarti bahwa probabilitas kesalahan tipe I akan kurang dari nilai dipilih membuatnya menjadi tes konservatif. Seragam menjadi distribusi terbatas karena semakin dekat denganμ1<μ2μ1<μ2αμ1μ2(orang-orang yang lebih terkini dalam istilah stat-teori mungkin bisa menyatakan ini lebih baik dalam hal supremum distribusi atau sesuatu seperti itu). Jadi dengan membangun pengujian kami dengan asumsi bagian yang sama dari nol bahkan ketika nol adalah komposit, maka kami merancang pengujian kami untuk memiliki kemungkinan kesalahan tipe I yang paling untuk setiap kondisi di mana nol itu benar.α

Greg Snow
sumber
Maaf atas kesalahan ketik yang saya perkenalkan (harus dibaca \leqdalam TeX)!
chl
1
Artikel "Nilai-P adalah Variabel Acak" benar-benar menarik, adakah buku pengantar yang menganut prinsip-prinsip yang disebutkan dalam artikel?
Alessandro Jacopson
8
Terlepas dari komentar yang saya posting pada pertanyaan, saya sejak itu menyadari bahwa kesimpulannya tidak benar kecuali dalam kasus khusus. Masalahnya terjadi dengan hipotesis komposit, seperti . "Hipotesis nol benar" sekarang mencakup banyak kemungkinan, seperti kasus μ 1 = μ 2 - 10 6 . Dalam kasus seperti itu, nilai-p tidak akan didistribusikan secara seragam. Saya menduga seseorang dapat membuat situasi (agak buatan) di mana, tidak peduli apa elemen dari hipotesis nol berlaku, distribusi nilai-p tidak akan pernah mendekati seragam. μ1μ2μ1=μ2106
whuber
1
@Greg Snow: Saya pikir distribusi nilai-p tidak selalu seragam, seragam ketika mereka dihitung dari distribusi kontinu, tetapi tidak ketika mereka dihitung dari distribusi diskrit
1
Saya telah memperluas jawaban di atas untuk menanggapi komentar oleh @whuber.
Greg Snow
26

TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
F ( ) TPF()T

Hasil ini bersifat umum: distribusi CDF yang tidak dapat dibalik dari variabel acak adalah seragam pada .[0,1]

Charlie
sumber
8
Anda mungkin ingin mengulangi komentar terakhir Anda, yang sedikit membingungkan. CDF berkelanjutan tidak selalu memiliki invers (yang tepat). (Bisakah Anda memikirkan contoh tandingan?) Jadi, bukti Anda membutuhkan syarat tambahan. Cara standar untuk menyiasatinya adalah dengan mendefinisikan pseudoinverse . Argumennya menjadi lebih halus juga. F(y)=inf{x:F(x)y}
kardinal
1
Mengenai bekerja dengan invers yang digeneralisasi, lihat link.springer.com/article/10.1007%2Fs00186-013-0436-7 (khususnya, F (T) hanya seragam jika F kontinu - tidak masalah apakah F tidak dapat dibalik atau tidak tidak). Mengenai definisi Anda tentang nilai-p: Saya tidak berpikir itu selalu 'F (T)'. Ini adalah probabilitas (di bawah nol) untuk mengambil nilai yang lebih ekstrem daripada yang diamati, jadi itu juga bisa menjadi fungsi bertahan hidup (tepatnya di sini).
Marius Hofert
Bukankah CDF? F(t)
zyxue
@zyxue Ya, cdf terkadang disebut sebagai "distribusi".
mikario
6

Misalkan menunjukkan variabel acak dengan fungsi distribusi kumulatif untuk semua . Dengan asumsi bahwa tidak dapat dibalik, kita dapat memperoleh distribusi nilai-p acak sebagai berikut:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

dari mana kita dapat menyimpulkan bahwa distribusi adalah seragam pada .P[0,1]

Jawaban ini mirip dengan Charlie, tetapi harus mendefinisikan .t=F1(p)

jII
sumber
Seperti yang telah Anda tetapkan F, bukankah P = F (T) = Pr (T <T) = 0?
TrynnaDoStat
Tidak persis, "penggantian sintaksis" dari agak menyesatkan. Secara formal, adalah variabel acak yang didefinisikan olehF(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII
4

Simulasi sederhana distribusi nilai-p dalam kasus regresi linier antara dua variabel independen:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform
Qbik
sumber
7
Bisakah Anda menguraikan bagaimana ini menjawab pertanyaan? Meskipun hasilnya menggambarkan kasus khusus dari pernyataan itu, tidak ada jumlah kode yang mampu menjawab pertanyaan mengapa ? Itu membutuhkan penjelasan tambahan.
whuber
-1

Saya kira sebagian besar jawaban ini tidak menjawab pertanyaan secara umum. Mereka dibatasi pada kasus ketika ada hipotesis nol sederhana dan ketika statistik uji memiliki CDF terbalik (seperti dalam variabel acak kontinu yang memiliki peningkatan CDF ketat). Kasus-kasus ini adalah kasus-kasus yang kebanyakan orang cenderung pedulikan dengan uji-z dan uji-t, meskipun untuk menguji rerata binomial (misalnya) seseorang tidak memiliki CDF seperti itu. Apa yang disediakan di atas tampaknya benar bagi saya untuk kasus-kasus terbatas ini.

Jika hipotesis nol adalah gabungan maka hal-hal sedikit lebih rumit. Bukti paling umum dari fakta ini yang pernah saya lihat di bawah kasus komposit menggunakan beberapa asumsi mengenai daerah penolakan disediakan dalam Lehmann dan Romano "Pengujian Hipotesis Statistik," halaman 63-64. Saya akan mencoba mereproduksi argumen di bawah ini ...

Kami menguji hipotesis nol versus hipotesis alternatif didasarkan pada statistik uji, yang kami akan menunjukkan sebagai variabel acak . Statistik uji diasumsikan berasal dari beberapa kelas parametrik, yaitu, , di mana adalah elemen dari keluarga distribusi probabilitas , dan adalah ruang parameter. Hipotesis nol dan hipotesis alternatif membentuk partisi di H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
di mana
Θ0Θ1=.

Hasil tes dapat dinotasikan mana untuk setiap set kita mendefinisikan Di sini adalah tingkat signifikansi kami, dan menunjukkan wilayah penolakan tes untuk tingkat signifikansi .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Misalkan daerah penolakan memenuhi jika . Dalam kasus daerah penolakan bersarang, akan berguna untuk menentukan tidak hanya apakah hipotesis nol ditolak pada tingkat signifikansi yang diberikan , tetapi juga untuk menentukan tingkat signifikansi terkecil di mana hipotesis nol akan ditolak. Tingkat ini dikenal sebagai nilai -p , Angka ini memberi kita gambaran tentang seberapa kuat data (seperti yang digambarkan oleh uji statistik ) bertentangan dengan hipotesis nol .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Misalkan untuk beberapa dan bahwa . Misalkan tambahan bahwa daerah penolakan mematuhi properti bersarang yang dinyatakan di atas. Maka yang berikut ini berlaku:XPθθΘH0:θΘ0Rα

  1. Jika untuk semua , maka untuk , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Jika untuk kita memiliki untuk semua , maka untuk kita memiliki θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Perhatikan properti pertama ini hanya memberi tahu kita bahwa tingkat positif palsu dikontrol pada dengan menolak ketika nilai-p kurang dari , dan properti kedua memberi tahu kita (diberi asumsi tambahan) bahwa nilai-p didistribusikan secara seragam di bawah nol hipotesa.uu

Buktinya adalah sebagai berikut:

  1. Biarkan , dan anggap untuk semua . Kemudian dengan definisi , kita memiliki untuk semua . Dengan monotonitas dan asumsi, maka untuk semua . Membiarkan , maka .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Biarkan , dan asumsikan bahwa untuk semua . Kemudian , dan secara monotonik maka . Mempertimbangkan (1), maka . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Perhatikan bahwa asumsi dalam (2) tidak berlaku ketika statistik uji diskrit bahkan jika hipotesis nol sederhana daripada komposit. Ambil contoh dengan dan . Yaitu, balik koin sepuluh kali dan uji apakah itu adil vs bias terhadap kepala (dikodekan sebagai 1). Probabilitas melihat 10 kepala dalam 10 koin membalik adalah (1/2) ^ 10 = 1/1024. Probabilitas melihat 9 atau 10 kepala dalam 10 membalik koin yang adil adalah 11/1024. Untuk apa pun secara ketat antara 1/1024 dan 11/1024, Anda akan menolak nol jika , tetapi kami tidak memilikinya untuk nilai-nilai kapanXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Sebagai gantinya untuk . Pr(XRα)=1/1024α

Adam
sumber
Harus mengklarifikasi bahwa generalitas yang disediakan di Lehmann dan Romano adalah untuk wilayah penolakan umum. Masih Anda hanya memiliki nilai p "valid" untuk nulls komposit dan statistik uji non-kontinu.
Adam
-12

Jika nilai p terdistribusi secara seragam di bawah H0 itu berarti bahwa ia cenderung melihat nilai p 0,05 sebagai nilai p 0,80, tetapi ini tidak benar, karena lebih kecil kemungkinannya untuk mengamati p- nilai 0,05 dari nilai p 0,80, karena itu tepatnya definisi distribusi normal dari mana nilai p diambil. Akan ada lebih banyak sampel yang jatuh dalam kisaran normalitas daripada di luarnya, menurut definisi. Oleh karena itu, lebih mungkin untuk menemukan nilai-p yang lebih besar daripada yang lebih kecil.

Gahariet
sumber
3
-1. Ini sepenuhnya salah. Saya bertanya-tanya siapa yang mengangkat ini. Nilai-P di bawah titik H0 didistribusikan secara seragam.
amoeba
1
-1. Ini bahkan tidak masuk akal untuk disebut salah: "rentang normalitas" tidak ada artinya dan nilai-p pada dasarnya tidak ada hubungannya dengan distribusi normal di tempat pertama.
whuber