Baru-baru ini, saya menemukan di sebuah makalah oleh Klammer, et al. pernyataan bahwa nilai-p harus didistribusikan secara seragam. Saya percaya pada penulis, tetapi tidak bisa mengerti mengapa demikian.
Klammer, AA, Park, CY, dan Stafford Noble, W. (2009) Kalibrasi Statistik Fungsi SEQUEST XCorr . Jurnal Penelitian Proteome . 8 (4): 2106–2113.
Jawaban:
Untuk memperjelas sedikit. Nilai p terdistribusi secara seragam ketika hipotesis nol benar dan semua asumsi lain dipenuhi. Alasan untuk ini adalah definisi alpha sebagai probabilitas kesalahan tipe I. Kami ingin probabilitas menolak hipotesis nol sejati menjadi alpha, kami menolak ketika diamati , satu-satunya cara ini terjadi untuk nilai alpha adalah ketika nilai-p berasal dari seragam distribusi. Inti dari menggunakan distribusi yang benar (normal, t, f, chisq, dll.) Adalah untuk mengubah dari statistik uji ke nilai p yang seragam. Jika hipotesis nol salah, maka distribusi nilai-p (semoga) akan lebih berbobot menuju 0.p-value<α
The
Pvalue.norm.sim
danPvalue.binom.sim
fungsi dalam TeachingDemos paket untuk R akan mensimulasikan beberapa set data, menghitung p-nilai dan plot mereka untuk menunjukkan ide ini.Lihat juga:
untuk lebih jelasnya.
Sunting:
Karena orang masih membaca jawaban dan komentar ini, saya pikir saya akan membahas komentar @ whuber.
Memang benar bahwa ketika menggunakan hipotesis nol komposit seperti bahwa nilai-p hanya akan terdistribusi secara seragam ketika 2 rata-rata sama persis dan tidak akan seragam jika adalah nilai yang kurang dari . Ini dapat dengan mudah dilihat menggunakan fungsi dan pengaturannya untuk melakukan tes satu sisi dan mensimulasikan dengan simulasi dan hipotesis berarti berbeda (tetapi dalam arah untuk membuat nol benar).μ 1 μ 2μ1≤μ2 μ1 μ2
Pvalue.norm.sim
Sejauh teori statistik berjalan, ini tidak masalah. Pertimbangkan jika saya mengklaim bahwa saya lebih tinggi daripada setiap anggota keluarga Anda, satu cara untuk menguji klaim ini adalah dengan membandingkan tinggi saya dengan tinggi setiap anggota keluarga Anda satu per satu. Pilihan lain adalah menemukan anggota keluarga Anda yang tertinggi dan membandingkan tinggi badan mereka dengan milik saya. Jika saya lebih tinggi dari satu orang itu maka saya juga lebih tinggi dari yang lain dan klaim saya benar, jika saya tidak lebih tinggi dari satu orang itu maka klaim saya salah. Menguji null komposit dapat dilihat sebagai proses yang serupa, daripada menguji semua kemungkinan kombinasi di mana kita dapat menguji hanya bagian kesetaraan karena jika kita dapat menolaknya mendukungμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1≤μ2 μ1=μ2 μ1>μ2 maka kita tahu bahwa kita juga dapat menolak semua kemungkinan . Jika kita melihat distribusi nilai-p untuk kasus-kasus di mana maka distribusi tidak akan seragam sempurna tetapi akan memiliki nilai lebih dekat ke 1 daripada ke 0 yang berarti bahwa probabilitas kesalahan tipe I akan kurang dari nilai dipilih membuatnya menjadi tes konservatif. Seragam menjadi distribusi terbatas karena semakin dekat denganμ1<μ2 μ1<μ2 α μ1 μ2 (orang-orang yang lebih terkini dalam istilah stat-teori mungkin bisa menyatakan ini lebih baik dalam hal supremum distribusi atau sesuatu seperti itu). Jadi dengan membangun pengujian kami dengan asumsi bagian yang sama dari nol bahkan ketika nol adalah komposit, maka kami merancang pengujian kami untuk memiliki kemungkinan kesalahan tipe I yang paling untuk setiap kondisi di mana nol itu benar.α
sumber
\leq
dalam TeX)!Hasil ini bersifat umum: distribusi CDF yang tidak dapat dibalik dari variabel acak adalah seragam pada .[0,1]
sumber
Misalkan menunjukkan variabel acak dengan fungsi distribusi kumulatif untuk semua . Dengan asumsi bahwa tidak dapat dibalik, kita dapat memperoleh distribusi nilai-p acak sebagai berikut:T F(t)≡Pr(T<t) t F P=F(T)
dari mana kita dapat menyimpulkan bahwa distribusi adalah seragam pada .P [0,1]
Jawaban ini mirip dengan Charlie, tetapi harus mendefinisikan .t=F−1(p)
sumber
Simulasi sederhana distribusi nilai-p dalam kasus regresi linier antara dua variabel independen:
sumber
Saya kira sebagian besar jawaban ini tidak menjawab pertanyaan secara umum. Mereka dibatasi pada kasus ketika ada hipotesis nol sederhana dan ketika statistik uji memiliki CDF terbalik (seperti dalam variabel acak kontinu yang memiliki peningkatan CDF ketat). Kasus-kasus ini adalah kasus-kasus yang kebanyakan orang cenderung pedulikan dengan uji-z dan uji-t, meskipun untuk menguji rerata binomial (misalnya) seseorang tidak memiliki CDF seperti itu. Apa yang disediakan di atas tampaknya benar bagi saya untuk kasus-kasus terbatas ini.
Jika hipotesis nol adalah gabungan maka hal-hal sedikit lebih rumit. Bukti paling umum dari fakta ini yang pernah saya lihat di bawah kasus komposit menggunakan beberapa asumsi mengenai daerah penolakan disediakan dalam Lehmann dan Romano "Pengujian Hipotesis Statistik," halaman 63-64. Saya akan mencoba mereproduksi argumen di bawah ini ...
Kami menguji hipotesis nol versus hipotesis alternatif didasarkan pada statistik uji, yang kami akan menunjukkan sebagai variabel acak . Statistik uji diasumsikan berasal dari beberapa kelas parametrik, yaitu, , di mana adalah elemen dari keluarga distribusi probabilitas , dan adalah ruang parameter. Hipotesis nol dan hipotesis alternatif membentuk partisi diH0 H1 X X∼Pθ Pθ P≡{Pθ∣θ∈Θ} Θ H0:θ∈Θ0 H1:θ∈Θ1 Θ Θ=Θ0∪Θ1
di mana
Θ0∩Θ1=∅.
Hasil tes dapat dinotasikan mana untuk setiap set kita mendefinisikan Di sini adalah tingkat signifikansi kami, dan menunjukkan wilayah penolakan tes untuk tingkat signifikansi .ϕα(X)=1Rα(X) S 1S(X)={1,0,X∈S,X∉S. α Rα α
Misalkan daerah penolakan memenuhi jika . Dalam kasus daerah penolakan bersarang, akan berguna untuk menentukan tidak hanya apakah hipotesis nol ditolak pada tingkat signifikansi yang diberikan , tetapi juga untuk menentukan tingkat signifikansi terkecil di mana hipotesis nol akan ditolak. Tingkat ini dikenal sebagai nilai -p , Angka ini memberi kita gambaran tentang seberapa kuat data (seperti yang digambarkan oleh uji statistik ) bertentangan dengan hipotesis nol .Rα⊂Rα′ α<α′ α p^=p^(X)≡inf{α∣X∈Rα}, X H0
Misalkan untuk beberapa dan bahwa . Misalkan tambahan bahwa daerah penolakan mematuhi properti bersarang yang dinyatakan di atas. Maka yang berikut ini berlaku:X∼Pθ θ∈Θ H0:θ∈Θ0 Rα
Jika untuk semua , maka untuk ,supθ∈Θ0Pθ(X∈Rα)≤α 0<α<1 θ∈Θ0 Pθ(p^≤u)≤ufor all0≤u≤1.
Jika untuk kita memiliki untuk semua , maka untuk kita memilikiθ∈Θ0 Pθ(X∈Rα)=α 0<α<1 θ∈Θ0 Pθ(p^≤u)=ufor all0≤u≤1.
Perhatikan properti pertama ini hanya memberi tahu kita bahwa tingkat positif palsu dikontrol pada dengan menolak ketika nilai-p kurang dari , dan properti kedua memberi tahu kita (diberi asumsi tambahan) bahwa nilai-p didistribusikan secara seragam di bawah nol hipotesa.u u
Buktinya adalah sebagai berikut:
Biarkan , dan anggap untuk semua . Kemudian dengan definisi , kita memiliki untuk semua . Dengan monotonitas dan asumsi, maka untuk semua . Membiarkan , maka .θ∈Θ0 supθ∈Θ0Pθ(X∈Rα)≤α 0<α<1 p^ {p^≤u}⊂{X∈Rv} u<v Pθ(p^≤u)≤Pθ(X∈Rv)≤v u<v v↘u Pθ(p^≤u)≤u
Biarkan , dan asumsikan bahwa untuk semua . Kemudian , dan secara monotonik maka . Mempertimbangkan (1), maka .θ∈Θ0 Pθ(X∈Rα)=α 0<α<1 {X∈Ru}⊂{p^(X)≤u} u=Pθ(X∈Ru)≤Pθ(p^≤u) Pθ(p^(X)≤u)=u
Perhatikan bahwa asumsi dalam (2) tidak berlaku ketika statistik uji diskrit bahkan jika hipotesis nol sederhana daripada komposit. Ambil contoh dengan dan . Yaitu, balik koin sepuluh kali dan uji apakah itu adil vs bias terhadap kepala (dikodekan sebagai 1). Probabilitas melihat 10 kepala dalam 10 koin membalik adalah (1/2) ^ 10 = 1/1024. Probabilitas melihat 9 atau 10 kepala dalam 10 membalik koin yang adil adalah 11/1024. Untuk apa pun secara ketat antara 1/1024 dan 11/1024, Anda akan menolak nol jika , tetapi kami tidak memilikinya untuk nilai-nilai kapanX∼Binom(10,θ) H0:θ=.5 H1:θ>0.5 α X=10 Pr(X∈Rα)=α α θ=0.5 . Sebagai gantinya untuk . Pr(X∈Rα)=1/1024 α
sumber
Jika nilai p terdistribusi secara seragam di bawah H0 itu berarti bahwa ia cenderung melihat nilai p 0,05 sebagai nilai p 0,80, tetapi ini tidak benar, karena lebih kecil kemungkinannya untuk mengamati p- nilai 0,05 dari nilai p 0,80, karena itu tepatnya definisi distribusi normal dari mana nilai p diambil. Akan ada lebih banyak sampel yang jatuh dalam kisaran normalitas daripada di luarnya, menurut definisi. Oleh karena itu, lebih mungkin untuk menemukan nilai-p yang lebih besar daripada yang lebih kecil.
sumber