Apa contoh yang baik dan meyakinkan di mana nilai-p berguna?

64

Pertanyaan saya dalam judul cukup jelas, tetapi saya ingin memberikan beberapa konteks.

ASA merilis sebuah pernyataan awal pekan ini “ pada nilai-p: konteks, proses, dan tujuan ”, menguraikan berbagai kesalahpahaman umum tentang nilai-p, dan mendesak kehati-hatian untuk tidak menggunakannya tanpa konteks dan pemikiran (yang dapat dikatakan hampir seperti metode statistik apa pun, sungguh).

Menanggapi ASA, profesor Matloff menulis posting blog berjudul: Setelah 150 Tahun, ASA Berkata Tidak untuk nilai-p . Kemudian profesor Benjamini (dan saya) menulis posting tanggapan berjudul Ini bukan kesalahan nilai-p ' - refleksi pada pernyataan ASA baru-baru ini . Sebagai tanggapannya, Profesor Matloff bertanya dalam posting lanjutan :

Apa yang ingin saya lihat [... adalah] - contoh yang bagus dan meyakinkan di mana nilai-p berguna. Itu benar-benar harus menjadi garis bawah.

Untuk mengutip nya dua argumen utama terhadap kegunaan dari -nilai:p

  1. Dengan sampel besar, tes signifikansi menerkam keberangkatan kecil, tidak penting dari hipotesis nol.

  2. Hampir tidak ada hipotesis nol yang benar di dunia nyata, sehingga melakukan uji signifikansi pada hipotesis itu tidak masuk akal dan aneh.

Saya sangat tertarik dengan apa yang dipikirkan oleh anggota komunitas lintas -validasi lainnya mengenai pertanyaan / argumen ini, dan apa yang mungkin merupakan tanggapan yang baik terhadapnya.

Tal Galili
sumber
5
Perhatikan dua utas lain yang terkait dengan topik ini: stats.stackexchange.com/questions/200500/… dan stats.stackexchange.com/questions/200745/...
Tim
2
Terima kasih Tim. Saya curiga pertanyaan saya cukup berbeda sehingga layak utas sendiri (terutama karena tidak dijawab dalam dua yang Anda sebutkan). Namun, tautannya sangat menarik!
Tal Galili
3
Pantas dan menarik (maka +1 saya), saya memberikan tautan hanya FYI :)
Tim
3
Saya harus mengatakan bahwa saya belum (belum) membaca apa yang ditulis Matloff pada topik tersebut, tetapi tetap, agar pertanyaan Anda tetap berdiri sendiri, dapatkah Anda meringkas secara singkat mengapa ia menemukan contoh standar penggunaan nilai-p bukan? " bagus / meyakinkan "? Misalnya seseorang ingin belajar jika manipulasi eksperimental tertentu mengubah perilaku hewan ke arah tertentu; jadi kelompok eksperimen dan kontrol diukur dan dibandingkan. Sebagai pembaca makalah seperti itu, saya senang melihat nilai-p (yaitu mereka berguna bagi saya), karena jika itu besar maka saya tidak perlu memperhatikan. Contoh ini tidak cukup?
Amuba mengatakan Reinstate Monica
1
@amoeba - dia mencantumkannya di sini: matloff.wordpress.com/2016/03/07/... ----- Mengutip argumennya: 1) dengan sampel besar, tes signifikansi menerkam keberangkatan kecil, tidak penting dari hipotesis nol. 2) Hampir tidak ada hipotesis nol yang benar di dunia nyata, sehingga melakukan uji signifikansi pada hipotesis itu tidak masuk akal dan aneh. ----- Saya memiliki pendapat saya sendiri tentang ini (yang ingin saya formalisasikan nanti), tetapi saya yakin orang lain akan memiliki cara wawasan untuk menjawab ini.
Tal Galili

Jawaban:

44

Saya akan mempertimbangkan kedua poin Matloff:

  1. Dengan sampel besar, tes signifikansi menerkam keberangkatan kecil, tidak penting dari hipotesis nol.

    p=0.0001npp

    (Dalam komentar, @RobinEkman menunjuk saya ke beberapa studi yang sangat dikutip oleh Ziliak & McCloskey ( 1996 , 2004 ) yang mengamati bahwa sebagian besar makalah ekonomi membunyikan "signifikansi statistik" dari beberapa efek tanpa memperhatikan banyak ukuran efek dan "signifikansi praktisnya" (yang, menurut Z&MS, sering kali sangat kecil). Ini jelas praktik yang buruk. Namun, seperti yang dijelaskan @MatteoS di bawah ini, ukuran efek (perkiraan regresi) selalu dilaporkan, jadi argumen saya tetap berlaku.)

  2. Hampir tidak ada hipotesis nol yang benar di dunia nyata, sehingga melakukan uji signifikansi pada hipotesis itu tidak masuk akal dan aneh.

    n n=20n=50n=5000benar bahwa hampir tidak ada efek nyata yang persis nol, itu adalah memang benar bahwa banyak banyak efek nyata cukup kecil untuk dideteksi dengan sampel yang wajar ukuran yang peneliti yang wajar benar-benar menggunakan, berolahraga penilaian baik mereka.

    n=100n=20

    Selain itu, saya tidak berpikir saya setuju bahwa hampir tidak ada hipotesis nol yang benar, setidaknya tidak dalam penelitian acak eksperimental (yang bertentangan dengan yang observasional). Dua alasan:

    • δ>0H0:δ=0H0:δ<0

    • H0:δ=0

pp95%95%99%pα

p


p

p0.60.695%[0.2,1.0]p95%p0.05

95%99%

ppp0.05d=0.6

p


pp

amuba kata Reinstate Monica
sumber
1
Tanggapan Anda terhadap argumen kedua tidak tepat, menurut saya. Tidak ada yang menyarankan bahwa para peneliti nyata meningkatkan ukuran sampel mereka hingga tak terbatas. Intinya (seperti yang saya lihat) adalah bahwa hipotesis nol apa pun dari bentuk "efek = 0" yang akan diminati oleh peneliti adalah salah, dan ada sedikit nilai dalam melakukan tes hipotesis jika hipotesis nol sudah ada. diketahui salah. Ini tentu saja mengasumsikan bahwa yang benar-benar kami minati adalah parameter populasi yang relevan, dan bukan karakteristik sampel.
mark999
1
Tetapi saya akui bahwa "hipotesis nol apa pun ... akan salah" hanyalah asumsi.
mark999
1
Saya harus mengakui bahwa alasan saya di sini agak informal dan saya tidak pernah mencoba untuk meresmikannya. Mungkin untuk membuat argumen ini berfungsi, saya seharusnya tidak mengatakan bahwa ada batas yang jelas antara ukuran efek yang menarik dan tidak menarik. Alih-alih, ini merupakan sebuah kontinum dengan tingkat ketertarikan yang meningkat lebih jauh dari nol, dan ukuran sampel yang "masuk akal" harus memberikan daya kecil pada ukuran efek yang sangat tidak menarik dan daya besar untuk yang sangat menarik, tetapi tidak ada ambang batas. Saya ingin tahu apakah seseorang dapat memformalkannya secara akurat di sepanjang garis Neyman-Pearson.
Amuba mengatakan Reinstate Monica
6
p
3
@amoeba: sumber klaim 70% mungkin merupakan frasa ambigu dalam abstrak 2006: "dari 182 makalah lengkap yang diterbitkan pada 1980-an di [AER] 70% tidak membedakan ekonomi dari signifikansi statistik". Apa yang mereka maksudkan dengan ini - seperti yang dijelaskan dalam kedua makalah - adalah bahwa seringkali hanya yang terakhir yang dikomentari, dan bahwa besarnya koefisien regresi dalam kaitannya dengan variabel dependen ("signifikansi ekonomi" dalam jargon mereka) tidak dianalisis secara luas . Tetapi selalu dilaporkan. Saya sarankan Anda mengedit pembaruan Anda dalam jawaban untuk mencerminkan bahwa :-)
MatteoS
29

Saya tersinggung dengan dua gagasan berikut:

  1. Dengan sampel besar, tes signifikansi menerkam keberangkatan kecil, tidak penting dari hipotesis nol.

  2. Hampir tidak ada hipotesis nol yang benar di dunia nyata, sehingga melakukan uji signifikansi pada hipotesis itu tidak masuk akal dan aneh.

Ini adalah argumen strawman tentang nilai-p. Masalah mendasar yang memotivasi pengembangan statistik berasal dari melihat tren dan ingin tahu apakah yang kita lihat adalah kebetulan, atau mewakili tren sistematis.

Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0

Memang benar ini tidak memberi tahu Anda seberapa besar efeknya. Tapi itu memberitahu Anda arah efeknya. Jadi jangan meletakkan kereta di depan kuda; sebelum saya mulai menggambar kesimpulan tentang besarnya efek, saya ingin yakin saya sudah mendapatkan arah efek yang benar!

H1:μd>1H2:μd<1

Untuk menggambarkan hal ini lebih jauh, misalkan kita hanya melihat interval kepercayaan dan nilai-p yang dibuang. Apa hal pertama yang akan Anda periksa dalam interval kepercayaan? Apakah efeknya benar-benar positif (atau negatif) sebelum mengambil hasilnya terlalu serius. Dengan demikian, bahkan tanpa nilai-p, kita secara informal akan melakukan pengujian hipotesis.

Akhirnya, sehubungan dengan permintaan OP / Matloff, "Berikan argumen yang meyakinkan tentang nilai-p yang secara signifikan lebih baik", saya pikir pertanyaan agak canggung. Saya mengatakan ini karena tergantung pada pandangan Anda, secara otomatis menjawab sendiri ("beri saya satu contoh konkret di mana pengujian hipotesis lebih baik daripada tidak menguji mereka"). Namun, kasus khusus yang menurut saya hampir tidak dapat disangkal adalah data RNAseq. Dalam kasus ini, kami biasanya melihat tingkat ekspresi RNA dalam dua kelompok yang berbeda (yaitu yang berpenyakit, kontrol) dan mencoba menemukan gen yang diekspresikan secara berbeda-beda dalam dua kelompok. Dalam hal ini, ukuran efek itu sendiri bahkan tidak terlalu berarti. Ini karena tingkat ekspresi gen yang berbeda sangat bervariasi sehingga bagi sebagian gen, memiliki ekspresi 2x lebih tinggi tidak berarti apa-apa, sementara pada gen yang diatur dengan ketat lainnya, ekspresi 1,2x lebih tinggi adalah fatal. Jadi besarnya sebenarnya dari ukuran efek sebenarnya agak tidak menarik ketika pertama kali membandingkan kelompok. Tapi kamubenar-benar ingin tahu apakah ekspresi gen berubah antara kelompok dan arah perubahan! Selain itu, jauh lebih sulit untuk mengatasi masalah beberapa perbandingan (yang Anda bisa lakukan 20.000 dari mereka dalam satu kali) dengan interval kepercayaan daripada dengan nilai-p.

Cliff AB
sumber
2
Saya tidak setuju bahwa mengetahui arah efek itu sendiri berguna. Jika saya meludah ke tanah, saya tahu ini akan meningkatkan atau menghambat pertumbuhan tanaman (yaitu hipotesis nol tanpa efek salah). Bagaimana mengetahui arah efek ini tanpa informasi apa pun tentang besarnya efeknya ? Namun ini adalah satu - satunya hal yang p- nilai dari tes dua sisi Anda / dua tes satu sisi (semacam) memberitahu Anda! (BTW, saya pikir contoh 'ludah di tanah' dipinjam dari beberapa kertas di p- nilai yang saya baca bertahun-tahun yang lalu, tetapi saya tidak dapat mengingat yang mana.)
Karl Ove Hufthammer
3
@KarlOveHufthammer: Gerobak di depan kuda. Saya tidak boleh berhenti hanya karena saya tahu arah efeknya. Tetapi saya harus peduli bahwa saya memiliki arah yang benar sebelum saya mulai khawatir tentang besarnya. Apakah Anda pikir komunitas ilmiah akan lebih baik dengan merangkul semuanya dengan perkiraan efek yang besar tanpa memeriksa nilai-p?
Cliff AB
3
Ha:μd>1Ha:μd<1
2
Anda membuat beberapa poin yang sangat bagus di suntingan. Saya sangat suka jawaban Anda sekarang!
Amuba mengatakan Reinstate Monica
3
Saat mengerjakan jawaban saya untuk stats.stackexchange.com/questions/200500 saya menemukan pracetak baru-baru ini oleh Wagenmakers et al di mana mereka pada dasarnya memperdebatkan pendapat Anda tentang directionality: "Nilai P satu sisi dapat diberikan interpretasi Bayesian sebagai tes perkiraan arah, yaitu, tes apakah efek laten negatif atau positif. " Ini menarik karena pembuat Wagen adalah orang Bayesian yang keras, ia menulis banyak terhadap nilai-p. Namun, saya melihat beberapa kesepakatan konseptual di sini.
Amoeba berkata Reinstate Monica
6

Maafkan sarkasme saya, tetapi satu contoh yang jelas dari utilitas nilai-p adalah dalam penerbitan. Saya memiliki satu eksperimen yang mendekati saya untuk menghasilkan nilai-p ... dia telah memperkenalkan transgen dalam satu pabrik untuk meningkatkan pertumbuhan. Dari satu tanaman itu dia menghasilkan banyak klon dan memilih klon terbesar, contoh di mana seluruh populasi dihitung. Pertanyaannya, reviewer ingin melihat nilai p bahwa klon ini adalah yang terbesar. Saya menyebutkan bahwa tidak ada kebutuhan untuk statistik dalam hal ini karena ia memiliki seluruh populasi, tetapi tidak berhasil.

Lebih serius lagi, menurut pendapat saya yang sederhana, dari sudut pandang akademis, saya menemukan diskusi ini menarik dan menstimulasi, seperti debat yang sering dilakukan vs Bayesian dari beberapa tahun yang lalu. Ini memunculkan perspektif berbeda dari para pemikir terbaik dalam bidang ini dan menerangi banyak asumsi / perangkap yang terkait dengan metodologi yang umumnya tidak mudah diakses.

Dalam praktiknya, saya berpikir bahwa daripada berdebat tentang pendekatan terbaik dan mengganti satu tolok ukur yang cacat dengan yang lain, seperti yang telah disarankan sebelumnya di tempat lain, bagi saya itu lebih merupakan pengungkapan masalah sistemik yang mendasarinya dan fokusnya harus pada upaya mencari yang optimal solusi. Sebagai contoh, satu dapat menyajikan situasi di mana nilai-p dan CI saling melengkapi satu sama lain dan keadaan di mana satu lebih dapat diandalkan daripada yang lain. Dalam skema besar hal-hal, saya mengerti bahwa semua alat inferensial memiliki kekurangan mereka sendiri yang perlu dipahami dalam aplikasi apa pun agar tidak menghalangi kemajuan menuju tujuan akhir .. pemahaman yang lebih dalam dari sistem studi.

ashokragavendran
sumber
6

Saya akan memberi Anda contoh tentang bagaimana nilai-p harus digunakan dan dilaporkan. Ini adalah laporan yang sangat baru tentang pencarian partikel misterius pada Large Hadron Collider (LHC) di CERN .

Beberapa bulan yang lalu ada banyak obrolan bersemangat di kalangan fisika energi tinggi tentang kemungkinan bahwa partikel besar terdeteksi pada LHC. Ingat ini setelah penemuan bos Higgs . Berikut kutipan dari makalah "Cari resonansi yang membusuk ke pasangan foton dalam 3,2 fb − 1 dari tabrakan pp di √s = 13 TeV dengan detektor ATLAS" oleh The ATLAS Collaboration 15 Desember 2015 dan komentar saya mengikuti:

masukkan deskripsi gambar di sini

Apa yang mereka katakan di sini adalah bahwa jumlah peristiwa melebihi apa yang diprediksi Model Standar . Gambar di bawah ini dari kertas menunjukkan nilai-p dari peristiwa berlebih sebagai fungsi dari massa partikel. Anda melihat bagaimana nilai-p menyelam di sekitar 750 GeV. Jadi, mereka mengatakan bahwa ada kemungkinan partikel baru terdeteksi dengan massa yang setara dengan 750 Giga eV . Nilai p pada gambar dihitung sebagai "lokal". Nilai-p global jauh lebih tinggi. Itu tidak penting untuk percakapan kita.

Yang penting adalah bahwa nilai-p belum "cukup rendah" untuk dinyatakan oleh fisikawan, tetapi "cukup rendah" untuk bersemangat. Jadi, mereka berencana untuk terus menghitung, dan berharap bahwa nilai-p akan semakin menurun.

masukkan deskripsi gambar di sini

Zoom beberapa bulan ke depan hingga Agustus 2016, Chicago, sebuah konferensi tentang HEP . Ada laporan baru yang disajikan "Pencarian untuk produksi resonansi pasangan foton massa tinggi menggunakan 12,9 fb − 1 tabrakan proton-proton pada √ s = 13 TeV dan gabungan interpretasi pencarian pada 8 dan 13 TeV" oleh Kolaborasi CMS kali ini. Berikut petikan dengan komentar saya lagi:

masukkan deskripsi gambar di sini

Jadi, orang-orang terus mengumpulkan acara, dan sekarang blip peristiwa kelebihan di 750 GeV hilang. Gambar di bawah ini dari kertas menunjukkan nilai-p, dan Anda dapat melihat bagaimana nilai-p meningkat dibandingkan dengan laporan pertama. Jadi, mereka dengan sedih menyimpulkan bahwa tidak ada partikel yang terdeteksi pada 750 GeV.

masukkan deskripsi gambar di sini

Saya pikir ini adalah bagaimana nilai-p seharusnya digunakan. Mereka benar-benar masuk akal, dan mereka jelas bekerja. Saya pikir alasannya adalah bahwa pendekatan frequentist pada dasarnya alami dalam fisika. Tidak ada yang subyektif tentang hamburan partikel. Anda mengumpulkan sampel yang cukup besar dan Anda mendapatkan sinyal yang jelas jika ada.

Jika Anda benar-benar memahami bagaimana tepatnya nilai-p dihitung di sini, baca makalah ini : "Rumus asimptotik untuk tes fisika baru berbasis kemungkinan" oleh Cowan et al.

Aksakal
sumber
2
Semua orang berharap bahwa puncak 750 GeV itu nyata dan sekarang menyedihkan. Tapi saya sebenarnya berharap itu akan berubah menjadi fluktuasi (dan bisa bertaruh itu akan) dan sekarang saya lega. Saya pikir itu keren bahwa model standar berfungsi dengan baik. Tidak begitu mengerti keinginan yang membara untuk bergerak melampaui model standar (seolah-olah semua hal lain dalam fisika terpecahkan). Bagaimanapun, +1, contoh yang bagus.
Amuba mengatakan Reinstate Monica
2

Penjelasan lainnya baik-baik saja, saya hanya ingin mencoba dan memberikan jawaban singkat dan langsung untuk pertanyaan yang muncul di kepala saya.

Memeriksa Ketidakseimbangan Kovarian dalam Eksperimen Acak

Klaim kedua Anda (tentang hipotesis nol yang tidak realistis) tidak benar ketika kami memeriksa saldo kovariat dalam eksperimen acak tempat kami tahu pengacakan dilakukan dengan benar. Dalam hal ini, kita tahu bahwa hipotesis nol itu benar. Jika kita mendapatkan perbedaan yang signifikan antara kelompok perlakuan dan kelompok kontrol pada beberapa kovariat - setelah mengendalikan beberapa perbandingan, tentu saja - maka itu memberitahu kita bahwa kita mendapat "undian buruk" dalam pengacakan dan kita mungkin tidak boleh mempercayai perkiraan sebab akibat sebagai banyak. Ini karena kita mungkin berpikir bahwa perkiraan efek pengobatan kami dari pengacakan "undian buruk" khusus ini jauh dari efek pengobatan yang sebenarnya daripada perkiraan yang diperoleh dari "undian yang baik."

Saya pikir ini adalah penggunaan nilai-p yang sempurna. Ini menggunakan definisi nilai-p: probabilitas mendapatkan nilai sebagai atau lebih ekstrem dengan hipotesis nol. Jika hasilnya sangat tidak mungkin, maka kami memang mendapatkan "undian yang buruk."

Tabel / statistik keseimbangan juga umum ketika menggunakan data pengamatan untuk mencoba dan membuat kesimpulan kausal (misalnya, pencocokan, eksperimen alami). Meskipun dalam kasus ini tabel neraca masih jauh dari cukup untuk membenarkan label "kausal" terhadap estimasi.


sumber
Saya tidak setuju bahwa ini adalah penggunaan nilai-p yang sempurna (atau bahkan bagus). Bagaimana Anda mendefinisikan "undian buruk"?
mark999
2
@mark, Oke. Saya pikir saya dapat menjawab pertanyaan terakhir Anda saat Matt pergi: tentu saja dalam sampel. Bayangkan percobaan acak dengan 50 orang. Bayangkan bahwa kebetulan semua 25 orang dalam kelompok A ternyata adalah laki-laki dan semua 25 orang dalam kelompok B ternyata adalah perempuan. Sangat jelas bahwa ini dapat menimbulkan keraguan serius pada kesimpulan penelitian; itu adalah contoh dari "undian buruk". Matt menyarankan untuk menjalankan tes perbedaan gender (kovariat) antara A dan B. Saya tidak melihat bagaimana jawaban Matt dapat diartikan berbeda. Tidak ada populasi di sini sama sekali.
Amuba mengatakan Reinstate Monica
1
@ mark999 Tetapi tes untuk perbedaan antara 12/25 dan 13/25 jelas akan menghasilkan nilai p tidak signifikan yang tinggi, jadi saya tidak yakin apa maksud Anda di sini. Matt menyarankan untuk menjalankan tes dan menganggap nilai-p rendah sebagai bendera merah. Tidak ada bendera merah dalam contoh Anda. Saya pikir saya akan berhenti di sini dan membiarkan Matt melanjutkan dialog jika dia mau.
Amuba mengatakan Reinstate Monica
4
Lihat 'fallacy test fallacy': gking.harvard.edu/files/matchse.pdf Anda menggambarkan kasus di mana statistik tes itu sendiri mungkin baik-baik saja (digunakan sebagai ukuran jarak untuk meminimalkan) tetapi nilai-p untuk itu tidak membuat merasakan.
conjugateprior
2
Untuk pemeriksaan yang lebih baru dari ini dalam psiko-dan neurolinguistik, ada cetak preprint arXiv baru . Ketika Anda mempertimbangkan untuk memanipulasi keseimbangan, dll., Anda bukan sampel acak dan bahkan jika Anda melakukannya, tes menjawab pertanyaan inferensial yang berbeda tentang keseimbangan dalam populasi dan bukan keseimbangan dalam sampel.
Livius
2

Kontrol tingkat kesalahan mirip dengan kontrol kualitas dalam produksi. Robot dalam jalur produksi memiliki aturan untuk memutuskan bahwa suatu bagian cacat yang menjamin tidak akan melebihi tingkat tertentu dari bagian yang rusak yang melalui tidak terdeteksi. Demikian pula, sebuah lembaga yang membuat keputusan untuk persetujuan obat berdasarkan pada nilai-P "jujur" memiliki cara untuk menjaga tingkat penolakan palsu pada tingkat yang terkendali, menurut definisi melalui konstruksi tes jangka panjang yang sering dilakukan. Di sini, "jujur" berarti tidak adanya bias yang tidak terkendali, pilihan tersembunyi, dll.

Namun, baik robot, maupun agensi tidak memiliki kepentingan pribadi dalam obat tertentu atau bagian yang melewati konveyor perakitan. Dalam sains, di sisi lain, kita, sebagai penyelidik individual paling peduli pada hipotesis khusus yang kita pelajari, daripada tentang proporsi klaim palsu dalam jurnal favorit yang kita ajukan. Baik besaran P-value maupun batas interval kepercayaan (CI) tidak merujuk langsung ke pertanyaan kami tentang kredibilitas apa yang kami laporkan. Ketika kita membangun batas CI, kita harus mengatakan bahwa satu-satunya makna dari dua angka adalah bahwa jika ilmuwan lain melakukan jenis perhitungan CI yang sama dalam studi mereka, cakupan 95% atau apa pun akan dipertahankan pada berbagai penelitian secara keseluruhan. .

Dalam hal ini, saya merasa ironis bahwa nilai-P sedang "dilarang" oleh jurnal, mengingat bahwa di tengah krisis replikasi, nilai-nilai itu lebih bernilai bagi editor jurnal daripada bagi para peneliti yang menyerahkan makalah mereka, sebagai cara praktis menjaga tingkat temuan palsu yang dilaporkan oleh jurnal di teluk, dalam jangka panjang. Nilai-P bagus dalam menyaring, atau seperti yang ditulis IJ Good, nilai-nilai itu bagus untuk melindungi ujung belakang ahli statistik, tetapi tidak terlalu banyak pada bagian belakang klien.

PS Saya penggemar Benjamini dan ide Hochberg untuk mengambil ekspektasi tanpa syarat di berbagai studi dengan berbagai tes. Di bawah global "null", FDR "frequentist" masih dikontrol - studi dengan satu atau lebih penolakan muncul dalam jurnal pada tingkat yang terkontrol, meskipun, dalam kasus ini, setiap studi di mana beberapa penolakan telah dilakukan sebenarnya memiliki proporsi penolakan palsu yang sama dengan satu.

DZ
sumber
1

Saya setuju dengan Matt bahwa nilai-p berguna ketika hipotesis nol benar.

Contoh paling sederhana yang dapat saya pikirkan adalah menguji generator angka acak. Jika generator bekerja dengan benar, Anda dapat menggunakan ukuran sampel sesuai realisasi dan ketika menguji kecocokan banyak sampel, nilai-p harus memiliki distribusi yang seragam. Jika mereka melakukannya, ini adalah bukti yang baik untuk implementasi yang benar. Jika tidak, Anda tahu Anda telah membuat kesalahan di suatu tempat.

Situasi serupa lainnya terjadi ketika Anda tahu statistik atau variabel acak harus memiliki distribusi tertentu (sekali lagi, konteks yang paling jelas adalah simulasi). Jika nilai-p seragam, Anda telah menemukan dukungan untuk implementasi yang valid. Jika tidak, Anda tahu Anda memiliki masalah di suatu tempat dalam kode Anda.

soakley
sumber
1

Saya dapat memikirkan contoh di mana nilai-p berguna, dalam Fisika Energi Tinggi Eksperimental. Lihat Gambar. 1 Plot ini diambil dari makalah ini: Pengamatan partikel baru dalam pencarian untuk Standard Model Higgs boson dengan detektor ATLAS di LHC

5σH125

masukkan deskripsi gambar di sini

Nicolas Gutierrez
sumber
1
Anda perlu memberikan informasi lebih lanjut tentang plot, dengan latar belakang dan bagaimana menangani pertanyaan asli. Ini hampir tidak cukup informasi.
Greenparker
@Greenparker, mencoba menambahkan beberapa latar belakang pada plot.
Nicolas Gutierrez
±1σ