Jika distribusi statistik uji adalah bimodal, apakah nilai-p bermakna?

12

Nilai-P didefinisikan sebagai probabilitas untuk memperoleh uji-statistik paling tidak sama ekstrim dengan apa yang diamati, dengan asumsi hipotesis nol adalah benar. Dengan kata lain,

Tetapi bagaimana jika uji-statistik bimodal dalam distribusi? Apakah nilai-p berarti dalam konteks ini? Sebagai contoh, saya akan mensimulasikan beberapa data bimodal di R:

P(Xt|H0)
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

masukkan deskripsi gambar di sini

Dan mari kita asumsikan kita mengamati nilai statistik uji 60. Dan di sini kita tahu dari gambar nilai ini sangat tidak mungkin . Jadi idealnya, saya ingin prosedur statistik yang saya gunakan (katakanlah, p-value) untuk mengungkapkan ini. Tetapi jika kita menghitung nilai p seperti yang didefinisikan, kita mendapatkan nilai p yang cukup tinggi

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Jika saya tidak tahu distribusinya, saya akan menyimpulkan bahwa apa yang saya amati hanyalah kebetulan belaka. Tetapi kita tahu ini tidak benar.

Saya kira pertanyaan yang saya miliki adalah: Mengapa, ketika menghitung nilai-p, apakah kita menghitung probabilitas untuk nilai-nilai "setidaknya paling ekstrim seperti" yang diamati? Dan jika saya menghadapi situasi seperti yang saya simulasikan di atas, apa solusi alternatifnya?

Alby
sumber
7
Selamat datang di dunia yang luar biasa dari Pengujian Signifikansi Hipotesis Null! Serius: Jujur saya tidak bisa memikirkan statistik uji yang memiliki distribusi bimodal di bawah hipotesis nol (yang merupakan salah satu yang kami pedulikan di NHST). Jadi +1 untuk pertanyaan yang menarik, tapi saya agak meragukan relevansinya yang praktis ... kecuali Anda memiliki contoh spesifik di benak Anda?
Stephan Kolassa
1
Saya setuju dengan @StephanKolassa; tentu saja ada distribusi data yang bersifat bimodal, tetapi statistik uji macam apa itu?
Peter Flom - Reinstate Monica
7
Saya tidak setuju dengan karakterisasi nilai-p yang disarankan oleh rumus pertama. Arti yang benar dari "setidaknya sama ekstrim" dalam teori Neyman-Pearson adalah dalam hal kemungkinan relatif dan tidak dalam hal pemesanan real yang biasa (seperti ditunjukkan dalam rumus). Keduanya setara dalam banyak situasi pengujian standar tetapi berbeda tajam ketika distribusi sampling bersifat bimodal. Perbedaan ini karena itu akan menyelesaikan pertanyaan dengan memuaskan, saya pikir.
whuber
@whuber Bisakah Anda menjelaskan sedikit ini, mungkin dengan contoh sederhana?
Szabolcs
2
Gθ(θ,θ)θ1Fθ(x)Gθ(x)Gθ(x)x[1,1]F1F2±1/2XFθH0:XF1 HA:XF2±11/21/2θ=2

Jawaban:

5

Apa yang membuat statistik uji "ekstrem" tergantung pada alternatif Anda, yang memaksakan pemesanan (atau setidaknya pesanan parsial) pada ruang sampel - Anda berusaha untuk menolak kasus-kasus yang paling konsisten (dalam arti diukur dengan statistik uji) dengan alternatifnya.

Ketika Anda tidak benar - benar memiliki alternatif untuk memberi Anda sesuatu yang paling konsisten dengan Anda, Anda pada dasarnya pergi dengan kemungkinan untuk memberikan pemesanan, paling sering terlihat dalam tes Fisher. Di sana, probabilitas hasil (tabel 2x2) di bawah nol memerintahkan statistik uji (sehingga 'ekstrim' adalah 'probabilitas rendah').

Jika Anda berada dalam situasi di mana paling kiri (atau paling kanan, atau keduanya) dari distribusi bimodal nol Anda dikaitkan dengan jenis alternatif yang Anda minati, Anda tidak akan berusaha untuk menolak statistik uji 60. Tetapi jika Anda berada dalam situasi di mana Anda tidak memiliki alternatif seperti itu, maka 60 adalah tidak wajar - ia memiliki kemungkinan rendah; nilai 60 tidak konsisten dengan model Anda dan akan membuat Anda menolak.

[Ini akan dilihat oleh beberapa orang sebagai satu perbedaan utama antara pengujian hipotesis Fisher dan Neyman-Pearson. Dengan memperkenalkan alternatif eksplisit, dan rasio kemungkinan, kemungkinan rendah di bawah nol tidak akan menyebabkan Anda menolak dalam kerangka Neyman-Pearson (selama kinerjanya relatif baik dibandingkan juga alternatifnya), sedangkan untuk Fisher, Anda tidak benar-benar memiliki alternatif, dan kemungkinan di bawah nol adalah hal yang Anda minati.]

Saya tidak menyarankan pendekatan mana yang benar atau salah di sini - Anda teruskan dan tentukan sendiri alternatif seperti apa yang Anda cari kekuatannya, apakah itu yang spesifik, atau hanya apa saja yang tidak cukup mungkin di bawah nol. Setelah Anda tahu apa yang Anda inginkan, sisanya (termasuk apa artinya 'setidaknya sebagai ekstrem') cukup banyak mengikuti dari itu.

Glen_b -Reinstate Monica
sumber