Saat menggabungkan nilai-p, mengapa tidak hanya rata-rata?

44

Baru-baru ini saya belajar tentang metode Fisher untuk menggabungkan nilai-p. Ini didasarkan pada fakta bahwa nilai-p di bawah nol mengikuti distribusi yang seragam, dan bahwa yang menurut saya jenius. Tetapi pertanyaan saya adalah mengapa pergi dengan cara berbelit-belit ini? dan mengapa tidak (apa yang salah dengan) hanya menggunakan nilai rata-rata p dan menggunakan teorema limit pusat? atau median? Saya mencoba memahami kejeniusan RA Fisher di balik skema besar ini.

2i=1nlogXiχ2(2n), given XUnif(0,1)
Alby
sumber
24
Itu datang ke aksioma dasar probabilitas: nilai-p adalah probabilitas dan probabilitas untuk hasil percobaan independen tidak menambahkan, mereka berkembang biak. Dalam hal multiplikasi, logaritma menyederhanakan suatu produk menjadi jumlah: dari situlah berasal. (Bahwa ia memiliki distribusi chi-kuadrat maka konsekuensi matematis yang tak terhindarkan.) Jauh dari awal "berbelit-belit," ini mungkin prosedur yang paling sederhana dan paling alami (sah) yang bisa dibayangkan. log(Xi)
whuber
5
Katakanlah saya memiliki 2 sampel independen dari populasi yang sama (misalkan kita memiliki satu sampel t-test). Bayangkan mean sampel dan standar deviasi hampir sama. Jadi nilai p untuk sampel pertama adalah 0,0666 dan untuk sampel kedua adalah 0,0668. Apa yang seharusnya menjadi nilai p keseluruhan? Nah, haruskah itu 0,0667? Sebenarnya, cukup jelas itu pasti lebih kecil. Dalam hal ini yang "benar" untuk dilakukan adalah menggabungkan sampel, jika kita memilikinya. Kami memiliki rata-rata dan standar deviasi yang sama, tetapi dua kali ukuran sampel . Std. kesalahan rata-rata lebih kecil, dan nilai-p harus lebih kecil.
Glen_b
3
Ada cara-cara lain untuk menggabungkan nilai-p, tentu saja, meskipun produk adalah cara paling alami untuk melakukannya. Orang bisa menambahkan nilai-p misalnya; di bawah nol bersama jumlah mereka harus memiliki distribusi segitiga. Atau seseorang dapat mengonversi nilai-p ke nilai-z dan menambahkannya (dan jika Anda menggabungkan hasil dari sampel serupa dengan ukuran yang tidak terlalu kecil dari populasi normal, ini akan masuk akal). Tetapi produk adalah cara yang jelas untuk melanjutkan; itu masuk akal secara logis setiap saat.
Glen_b
1
Perhatikan bahwa metode Fisher didasarkan pada produk, yang saya gambarkan sebagai alami - karena Anda melipatgandakan probabilitas independen untuk menemukan probabilitas gabungannya. Mengingat GM tidak benar-benar berbeda dari produk selain kemudian ada langkah tambahan dalam mencari tahu apa p-value gabungan yang sesuai karena setelah berhasil keluar GM ( , katakanlah) dengan mengambil produk, maka Anda perlu melihat dapatkan nilai p gabungan. Artinya Anda akan mengubah GM kembali ke produk sebelum mengambil log untuk menemukan nilai p gabungan. - 2 n log g = - 2 log ( g n )g2nlogg=2log(gn)
Glen_b
1
Saya akan meminta agar setiap orang membaca karya Duncan Murdoch "nilai-P adalah Variabel Acak" dalam "The American Statistician". Saya menemukan salinan online di: hypergeometric.files.wordpress.com/2013/09/...
DWin

Jawaban:

35

Anda dapat menggunakan nilai rata dengan sempurna.p

Kumpulan metode Fisher menetapkan ambang pada , sedemikian sehingga jika hipotesis nol : semua nilai adalah berlaku, kemudian melebihi dengan probabilitas . ditolak ketika ini terjadi. - 2 n i = 1 log p i H 0 p U ( 0 , 1 ) - 2 i log p i s α α H 0sα2i=1nlogpiH0pU(0,1)2ilogpisααH0

Biasanya seseorang mengambil dan diberikan oleh quantile dari . Secara setara, seseorang dapat bekerja pada produk yang lebih rendah dari dengan probabilitas . Di sini adalah, untuk , grafik yang menunjukkan zona penolakan (berwarna merah) (di sini kita menggunakan . Zona penolakan memiliki luas = 0,05.s α χ 2 ( 2 n ) i p i e - s α / 2 α n = 2 s α = 9.49α=0.05sαχ2(2n)ipiesα/2αn=2sα=9.49

Nelayan

Sekarang Anda dapat memilih untuk mengerjakan sebagai gantinya, atau ekuivalen pada . Anda hanya perlu menemukan ambang batas sehingga bawah dengan probabilitas ; perhitungan yang tepat membosankan - untuk cukup besar Anda dapat mengandalkan teorema limit pusat; untuk , . Grafik berikut menunjukkan zona penolakan (area = 0,05 lagi).ipitαpitααtαnn=2tα=(2α)11ni=1npiipitαpitααtαnn=2tα=(2α)12

jumlah nilai p

Seperti yang dapat Anda bayangkan, banyak bentuk lain untuk zona penolakan kemungkinan, dan telah diusulkan. Bukan apriori yang jelas mana yang lebih baik - yaitu yang memiliki kekuatan lebih besar.

Mari kita asumsikan bahwa , berasal dari uji- bilateral dengan parameter non-sentralitas 1:p 2 zp1p2z

> p1 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )
> p2 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )

Mari kita lihat pada scatterplot dengan warna merah poin-poin yang hipotesis nolnya ditolak.

Scatterplot

Kekuatan metode produk Fisher kira-kira

> sum(p1*p2<exp(-9.49/2))/1e4
[1] 0.2245

Kekuatan metode yang didasarkan pada jumlah nilai kira-kirap

> sum(p1+p2<sqrt(0.1))/1e4
[1] 0.1963

Jadi metode Fisher menang - setidaknya dalam kasus ini.

Elvis
sumber
2
Terima kasih, suntingan luar biasa (+1). Untuk distribusi nol adalah distribusi segitiga, jadi memang . Untuk distribusi nol sudah cukup terlibat (ini adalah kepadatan tiga bagian) tetapi untungnya untuk sudah dapat diperkirakan dengan sangat baik dengan distribusi normal dengan rata-rata dan varians . t α = n=2 n=3n>30,5nn/12tα=2αn=3n>30.5nn/12
Momo
1
+1. Perhatikan bahwa menambahkan nilai- disebut metode Edgington , lihat jawaban saya di bawah untuk beberapa daftar pustaka. p
Amuba kata Reinstate Monica
26

Apa yang salah dengan menjumlahkan semua nilai individu ?p

Seperti @whuber dan @Glen_b berpendapat dalam komentar, metode Fisher pada dasarnya mengalikan semua nilai individu , dan mengalikan probabilitas adalah hal yang lebih wajar untuk dilakukan daripada menambahkannya.p

Masih ada yang bisa menambahkannya. Bahkan, justru ini yang disarankan oleh Edgington (1972) Suatu metode aditif untuk menggabungkan nilai probabilitas dari percobaan independen (di bawah tembok), dan kadang-kadang disebut sebagai metode Edgington. Makalah 1972 menyimpulkan mengklaim itu

Metode aditif terbukti lebih kuat daripada metode multiplikasi, memiliki probabilitas lebih besar daripada metode multiplikasi menghasilkan hasil yang signifikan ketika sebenarnya ada efek pengobatan.

tetapi mengingat bahwa metode ini masih relatif tidak diketahui, saya curiga ini setidaknya penyederhanaan yang berlebihan. Misalnya tinjauan terakhir Cousins ​​(2008) Bibliografi Beranotasi dari Beberapa Makalah tentang Menggabungkan Signifikansi atau nilai-p sama sekali tidak menyebutkan metode Edgington dan tampaknya istilah ini tidak pernah disebutkan di CrossValidated juga.

Sangat mudah untuk datang dengan berbagai cara menggabungkan nilai- (saya pernah membuat sendiri dan bertanya mengapa itu tidak pernah digunakan: Metode skor-Z Stouffer: bagaimana jika kita menjumlahkan bukannya ? ), dan apa metode yang lebih baik sebagian besar merupakan pertanyaan empiris. Silakan lihat jawaban @ whuber di sana untuk perbandingan empiris dari kekuatan statistik dari dua metode yang berbeda dalam situasi tertentu; ada pemenang yang jelas.z 2 zpz2z

Jadi jawaban untuk pertanyaan umum tentang mengapa menggunakan metode "berbelit-belit" sama sekali, adalah bahwa seseorang dapat memperoleh kekuatan.

Zaykin et al (2002) Metode Produk Terpotong untuk Menggabungkan nilai-p menjalankan beberapa simulasi dan memasukkan metode Edgington dalam perbandingan, tetapi saya tidak yakin tentang kesimpulannya.

Salah satu cara untuk memvisualisasikan semua metode tersebut adalah menggambar daerah penolakan untuk , seperti yang dilakukan @Elvis dalam jawabannya yang menyenangkan (+1). Berikut adalah gambar lain yang secara eksplisit memasukkan metode Edgington dari apa yang tampaknya merupakan poster Winkler et al (2013) Kombinasi Non-Parametrik untuk Analisis Pencitraan Multi-Modal :n=2

Menggabungkan nilai-p

Setelah mengatakan semua itu, saya pikir masih ada pertanyaan mengapa metode Edgington akan (sering?) Menjadi suboptimal, sebagai berikut dari itu menjadi tidak jelas.

Mungkin salah satu alasan ketidakjelasan adalah karena tidak sesuai dengan intuisi kita dengan sangat baik: untuk , jika (atau lebih tinggi) maka berapapun nilainya , null gabungan tidak akan ditolak pada , itu bahkan jika misalnya .p 1 = 0,4 p 2 α = 0,05 p 2 = 0,00000001n=2p1=0.4p2α=0.05p2=0.00000001

Secara umum, menjumlahkan nilai- hampir tidak membedakan angka yang sangat kecil seperti misalnya dari , tetapi perbedaan dalam probabilitas ini sebenarnya sangat besar.p = 0,001 p = 0,00000001pp=0.001p=0.00000001


Memperbarui. Inilah yang ditulis Hedges dan Olkin tentang metode Edgintgon (setelah meninjau metode lain untuk menggabungkan nilai- ) dalam Metode Statistik untuk Meta-Analisis (1985), penekanan pada tambang:p

Prosedur uji gabungan yang sangat berbeda diusulkan oleh Edgington (1972a, b). Edgington diusulkan menggabungkan -values dengan mengambil jumlah dan memberikan metode membosankan, tetapi langsung untuk memperoleh tingkat signifikansi untuk . Perkiraan sampel besar ke tingkat signifikansi diberikan dalam Edgington (1972b). Meskipun ini merupakan prosedur kombinasi monoton dan karenanya dapat diterima, metode Edgington umumnya dianggap sebagai prosedur yang buruk karena satu nilai- besar dapat membanjiri banyak nilai kecil yang menyusun statistik. Namun, hampir tidak ada investigasi numerik dari prosedur ini.S = p 1 + + p k , S S pp

S=p1++pk,
SSp
amuba kata Reinstate Monica
sumber
1
Terima kasih, @Glen_b! Saya senang utas ini mendapat beberapa visibilitas tambahan dan layak. Ngomong-ngomong, saya tidak menyadari bahwa prosedur ini disebut "metode Edgington" sampai saya mulai meneliti jawaban ini.
Amoeba berkata Reinstate Monica
9

Jadi jika Anda melakukan tiga studi dengan ukuran yang sama dan mendapatkan nilai p 0,05 pada ketiga kesempatan, intuisi Anda adalah bahwa "nilai sebenarnya" harus 0,05? Intuisi saya berbeda. Beberapa hasil yang serupa tampaknya akan membuat signifikansi lebih tinggi (dan oleh karena itu nilai-p yang probabilitas harus lebih rendah). Nilai-P tidak benar-benar probabilitas. Mereka adalah pernyataan tentang distribusi sampel dari nilai yang diamati di bawah hipotesis tertentu. Saya percaya bahwa itu mungkin telah mendukung dugaan bahwa seseorang dapat menyalahgunakannya. Saya menyesal membuat pernyataan itu.

Bagaimanapun, di bawah hipotesis nol tidak ada perbedaan, peluang untuk mendapatkan beberapa nilai p ekstrem tampaknya jauh lebih tidak mungkin. Setiap kali saya melihat pernyataan bahwa nilai-p terdistribusi secara seragam dari 0-1 di bawah hipotesis nol, saya merasa terdorong untuk mengujinya dengan simulasi, dan sejauh ini pernyataan itu tampaknya berlaku. Saya tampaknya tidak berpikir secara sadar pada skala logaritmik, walaupun setidaknya sebagian dari jaringan saraf otak saya harus.

Jika Anda ingin mengukur intuisi ini, rumus yang Anda tawarkan (dengan sedikit revisi) muncul di halaman Wikipedia: http://en.wikipedia.org/wiki/Fisher%27s_method , dan grafik yang terkait memungkinkan Anda mengukur secara visual dan semi- secara kuantitatif dampak dari mendapatkan dua nilai-p kecil pada signifikansi keseluruhan. Misalnya membaca dari grafik kode warna, 2 nilai-p simultan dari 0,05 akan memberikan nilai p sintetis sekitar 0,02. Anda juga dapat menyelidiki dampak pada t-statistik menggandakan ukuran sampel Anda. Ukuran sampel masuk ke dalam sampel t-statistik sebagai 1 / sqrt (n-1) sehingga Anda bisa melihat dampak dari faktor itu sebagai hasil dari 50 menjadi 100. (dalam R :)

 plot(1:100, 1/sqrt(1:100) ,ylim=c(0,1) )
 abline(h=1/sqrt(c(50,100)))

Kedua pendekatan menghasilkan hasil kuantitatif yang berbeda, karena rasio nilai 1 / sqrt (n) untuk 50 dan 100 tidak sama dengan rasio 0,05 hingga 0,02. Kedua pendekatan mendukung intuisi saya, tetapi pada tingkat yang berbeda. Mungkin orang lain bisa menyelesaikan perbedaan ini. Namun pendekatan ketiga adalah mempertimbangkan kemungkinan mendapatkan dua undian acak "Benar" ketika probabilitas binomial dari masing-masing undian adalah 0,05. (dadu yang sangat tidak adil) Acara bersama itu harus memiliki probabilitas 0,05 * .05 = 0,002, yang hasilnya dapat dipertimbangkan di "sisi lain" dari estimasi Fisher. Saya baru saja menjalankan simulasi 50.000 uji simultan. Jika Anda memplot hasilnya, sangat mirip dengan peta bidang radiasi latar kosmik ... yaitu kebanyakan acak.

 t1 <- replicate(50000, t.test(rnorm(50))$p.value )
     t2 <- replicate(50000, t.test(rnorm(50))$p.value )
 table(t1 < 0.05, t2 < 0.05)
 plot(t1, t2, cex=0.1)
#        FALSE  TRUE
#  FALSE 45099  2411
#  TRUE   2380   110
 110/(50000-110)
#[1] 0.002204851
DWIN
sumber
Terima kasih atas jawaban Anda. Intuisi yang Anda sebutkan sebenarnya masuk akal. Saya akan mempertimbangkan kasus-kasus yang Anda sebutkan lebih signifikan. Tetapi apakah ada cara untuk mengekspresikan ide ini secara lebih matematis?
Alby
Jawaban ini (kalimat pertama) mengasumsikan bahwa ketika rata-rata nilai- , cutoff signifikansi akan tetap sama, tetapi tidak benar. Rata-rata bisa bekerja dengan baik. Lihat jawabannya oleh @Evis. a l p h apalpha
Amuba mengatakan Reinstate Monica
Saya melihatnya. Tidak yakin.
DWin
1
Anda sepertinya tidak memperhatikan bahwa dengan "metode rata-rata" dan dua percobaan dengan dan , hipotesis nol ditolak (lihat gambar kedua dalam jawaban saya di atas). p 2 = 0,05p1=0.05p2=0.05
Elvis
Metode rata-rata "menekankan" atau menimbang hipotesa majemuk yang ditolak oleh kedua hipotesis individu. Itu tampaknya menjadi kendala yang tak terucapkan.
DWin