Pertanyaan saya dalam judul cukup jelas, tetapi saya ingin memberikan beberapa konteks.
ASA merilis sebuah pernyataan awal pekan ini “ pada nilai-p: konteks, proses, dan tujuan ”, menguraikan berbagai kesalahpahaman umum tentang nilai-p, dan mendesak kehati-hatian untuk tidak menggunakannya tanpa konteks dan pemikiran (yang dapat dikatakan hampir seperti metode statistik apa pun, sungguh).
Menanggapi ASA, profesor Matloff menulis posting blog berjudul: Setelah 150 Tahun, ASA Berkata Tidak untuk nilai-p . Kemudian profesor Benjamini (dan saya) menulis posting tanggapan berjudul Ini bukan kesalahan nilai-p ' - refleksi pada pernyataan ASA baru-baru ini . Sebagai tanggapannya, Profesor Matloff bertanya dalam posting lanjutan :
Apa yang ingin saya lihat [... adalah] - contoh yang bagus dan meyakinkan di mana nilai-p berguna. Itu benar-benar harus menjadi garis bawah.
Untuk mengutip nya dua argumen utama terhadap kegunaan dari -nilai:
Dengan sampel besar, tes signifikansi menerkam keberangkatan kecil, tidak penting dari hipotesis nol.
Hampir tidak ada hipotesis nol yang benar di dunia nyata, sehingga melakukan uji signifikansi pada hipotesis itu tidak masuk akal dan aneh.
Saya sangat tertarik dengan apa yang dipikirkan oleh anggota komunitas lintas -validasi lainnya mengenai pertanyaan / argumen ini, dan apa yang mungkin merupakan tanggapan yang baik terhadapnya.
sumber
Jawaban:
Saya akan mempertimbangkan kedua poin Matloff:
(Dalam komentar, @RobinEkman menunjuk saya ke beberapa studi yang sangat dikutip oleh Ziliak & McCloskey ( 1996 , 2004 ) yang mengamati bahwa sebagian besar makalah ekonomi membunyikan "signifikansi statistik" dari beberapa efek tanpa memperhatikan banyak ukuran efek dan "signifikansi praktisnya" (yang, menurut Z&MS, sering kali sangat kecil). Ini jelas praktik yang buruk. Namun, seperti yang dijelaskan @MatteoS di bawah ini, ukuran efek (perkiraan regresi) selalu dilaporkan, jadi argumen saya tetap berlaku.)
Selain itu, saya tidak berpikir saya setuju bahwa hampir tidak ada hipotesis nol yang benar, setidaknya tidak dalam penelitian acak eksperimental (yang bertentangan dengan yang observasional). Dua alasan:
sumber
Saya tersinggung dengan dua gagasan berikut:
Ini adalah argumen strawman tentang nilai-p. Masalah mendasar yang memotivasi pengembangan statistik berasal dari melihat tren dan ingin tahu apakah yang kita lihat adalah kebetulan, atau mewakili tren sistematis.
Memang benar ini tidak memberi tahu Anda seberapa besar efeknya. Tapi itu memberitahu Anda arah efeknya. Jadi jangan meletakkan kereta di depan kuda; sebelum saya mulai menggambar kesimpulan tentang besarnya efek, saya ingin yakin saya sudah mendapatkan arah efek yang benar!
Untuk menggambarkan hal ini lebih jauh, misalkan kita hanya melihat interval kepercayaan dan nilai-p yang dibuang. Apa hal pertama yang akan Anda periksa dalam interval kepercayaan? Apakah efeknya benar-benar positif (atau negatif) sebelum mengambil hasilnya terlalu serius. Dengan demikian, bahkan tanpa nilai-p, kita secara informal akan melakukan pengujian hipotesis.
Akhirnya, sehubungan dengan permintaan OP / Matloff, "Berikan argumen yang meyakinkan tentang nilai-p yang secara signifikan lebih baik", saya pikir pertanyaan agak canggung. Saya mengatakan ini karena tergantung pada pandangan Anda, secara otomatis menjawab sendiri ("beri saya satu contoh konkret di mana pengujian hipotesis lebih baik daripada tidak menguji mereka"). Namun, kasus khusus yang menurut saya hampir tidak dapat disangkal adalah data RNAseq. Dalam kasus ini, kami biasanya melihat tingkat ekspresi RNA dalam dua kelompok yang berbeda (yaitu yang berpenyakit, kontrol) dan mencoba menemukan gen yang diekspresikan secara berbeda-beda dalam dua kelompok. Dalam hal ini, ukuran efek itu sendiri bahkan tidak terlalu berarti. Ini karena tingkat ekspresi gen yang berbeda sangat bervariasi sehingga bagi sebagian gen, memiliki ekspresi 2x lebih tinggi tidak berarti apa-apa, sementara pada gen yang diatur dengan ketat lainnya, ekspresi 1,2x lebih tinggi adalah fatal. Jadi besarnya sebenarnya dari ukuran efek sebenarnya agak tidak menarik ketika pertama kali membandingkan kelompok. Tapi kamubenar-benar ingin tahu apakah ekspresi gen berubah antara kelompok dan arah perubahan! Selain itu, jauh lebih sulit untuk mengatasi masalah beberapa perbandingan (yang Anda bisa lakukan 20.000 dari mereka dalam satu kali) dengan interval kepercayaan daripada dengan nilai-p.
sumber
Maafkan sarkasme saya, tetapi satu contoh yang jelas dari utilitas nilai-p adalah dalam penerbitan. Saya memiliki satu eksperimen yang mendekati saya untuk menghasilkan nilai-p ... dia telah memperkenalkan transgen dalam satu pabrik untuk meningkatkan pertumbuhan. Dari satu tanaman itu dia menghasilkan banyak klon dan memilih klon terbesar, contoh di mana seluruh populasi dihitung. Pertanyaannya, reviewer ingin melihat nilai p bahwa klon ini adalah yang terbesar. Saya menyebutkan bahwa tidak ada kebutuhan untuk statistik dalam hal ini karena ia memiliki seluruh populasi, tetapi tidak berhasil.
Lebih serius lagi, menurut pendapat saya yang sederhana, dari sudut pandang akademis, saya menemukan diskusi ini menarik dan menstimulasi, seperti debat yang sering dilakukan vs Bayesian dari beberapa tahun yang lalu. Ini memunculkan perspektif berbeda dari para pemikir terbaik dalam bidang ini dan menerangi banyak asumsi / perangkap yang terkait dengan metodologi yang umumnya tidak mudah diakses.
Dalam praktiknya, saya berpikir bahwa daripada berdebat tentang pendekatan terbaik dan mengganti satu tolok ukur yang cacat dengan yang lain, seperti yang telah disarankan sebelumnya di tempat lain, bagi saya itu lebih merupakan pengungkapan masalah sistemik yang mendasarinya dan fokusnya harus pada upaya mencari yang optimal solusi. Sebagai contoh, satu dapat menyajikan situasi di mana nilai-p dan CI saling melengkapi satu sama lain dan keadaan di mana satu lebih dapat diandalkan daripada yang lain. Dalam skema besar hal-hal, saya mengerti bahwa semua alat inferensial memiliki kekurangan mereka sendiri yang perlu dipahami dalam aplikasi apa pun agar tidak menghalangi kemajuan menuju tujuan akhir .. pemahaman yang lebih dalam dari sistem studi.
sumber
Saya akan memberi Anda contoh tentang bagaimana nilai-p harus digunakan dan dilaporkan. Ini adalah laporan yang sangat baru tentang pencarian partikel misterius pada Large Hadron Collider (LHC) di CERN .
Beberapa bulan yang lalu ada banyak obrolan bersemangat di kalangan fisika energi tinggi tentang kemungkinan bahwa partikel besar terdeteksi pada LHC. Ingat ini setelah penemuan bos Higgs . Berikut kutipan dari makalah "Cari resonansi yang membusuk ke pasangan foton dalam 3,2 fb − 1 dari tabrakan pp di √s = 13 TeV dengan detektor ATLAS" oleh The ATLAS Collaboration 15 Desember 2015 dan komentar saya mengikuti:
Apa yang mereka katakan di sini adalah bahwa jumlah peristiwa melebihi apa yang diprediksi Model Standar . Gambar di bawah ini dari kertas menunjukkan nilai-p dari peristiwa berlebih sebagai fungsi dari massa partikel. Anda melihat bagaimana nilai-p menyelam di sekitar 750 GeV. Jadi, mereka mengatakan bahwa ada kemungkinan partikel baru terdeteksi dengan massa yang setara dengan 750 Giga eV . Nilai p pada gambar dihitung sebagai "lokal". Nilai-p global jauh lebih tinggi. Itu tidak penting untuk percakapan kita.
Yang penting adalah bahwa nilai-p belum "cukup rendah" untuk dinyatakan oleh fisikawan, tetapi "cukup rendah" untuk bersemangat. Jadi, mereka berencana untuk terus menghitung, dan berharap bahwa nilai-p akan semakin menurun.
Zoom beberapa bulan ke depan hingga Agustus 2016, Chicago, sebuah konferensi tentang HEP . Ada laporan baru yang disajikan "Pencarian untuk produksi resonansi pasangan foton massa tinggi menggunakan 12,9 fb − 1 tabrakan proton-proton pada √ s = 13 TeV dan gabungan interpretasi pencarian pada 8 dan 13 TeV" oleh Kolaborasi CMS kali ini. Berikut petikan dengan komentar saya lagi:
Jadi, orang-orang terus mengumpulkan acara, dan sekarang blip peristiwa kelebihan di 750 GeV hilang. Gambar di bawah ini dari kertas menunjukkan nilai-p, dan Anda dapat melihat bagaimana nilai-p meningkat dibandingkan dengan laporan pertama. Jadi, mereka dengan sedih menyimpulkan bahwa tidak ada partikel yang terdeteksi pada 750 GeV.
Saya pikir ini adalah bagaimana nilai-p seharusnya digunakan. Mereka benar-benar masuk akal, dan mereka jelas bekerja. Saya pikir alasannya adalah bahwa pendekatan frequentist pada dasarnya alami dalam fisika. Tidak ada yang subyektif tentang hamburan partikel. Anda mengumpulkan sampel yang cukup besar dan Anda mendapatkan sinyal yang jelas jika ada.
Jika Anda benar-benar memahami bagaimana tepatnya nilai-p dihitung di sini, baca makalah ini : "Rumus asimptotik untuk tes fisika baru berbasis kemungkinan" oleh Cowan et al.
sumber
Penjelasan lainnya baik-baik saja, saya hanya ingin mencoba dan memberikan jawaban singkat dan langsung untuk pertanyaan yang muncul di kepala saya.
Memeriksa Ketidakseimbangan Kovarian dalam Eksperimen Acak
Klaim kedua Anda (tentang hipotesis nol yang tidak realistis) tidak benar ketika kami memeriksa saldo kovariat dalam eksperimen acak tempat kami tahu pengacakan dilakukan dengan benar. Dalam hal ini, kita tahu bahwa hipotesis nol itu benar. Jika kita mendapatkan perbedaan yang signifikan antara kelompok perlakuan dan kelompok kontrol pada beberapa kovariat - setelah mengendalikan beberapa perbandingan, tentu saja - maka itu memberitahu kita bahwa kita mendapat "undian buruk" dalam pengacakan dan kita mungkin tidak boleh mempercayai perkiraan sebab akibat sebagai banyak. Ini karena kita mungkin berpikir bahwa perkiraan efek pengobatan kami dari pengacakan "undian buruk" khusus ini jauh dari efek pengobatan yang sebenarnya daripada perkiraan yang diperoleh dari "undian yang baik."
Saya pikir ini adalah penggunaan nilai-p yang sempurna. Ini menggunakan definisi nilai-p: probabilitas mendapatkan nilai sebagai atau lebih ekstrem dengan hipotesis nol. Jika hasilnya sangat tidak mungkin, maka kami memang mendapatkan "undian yang buruk."
Tabel / statistik keseimbangan juga umum ketika menggunakan data pengamatan untuk mencoba dan membuat kesimpulan kausal (misalnya, pencocokan, eksperimen alami). Meskipun dalam kasus ini tabel neraca masih jauh dari cukup untuk membenarkan label "kausal" terhadap estimasi.
sumber
Kontrol tingkat kesalahan mirip dengan kontrol kualitas dalam produksi. Robot dalam jalur produksi memiliki aturan untuk memutuskan bahwa suatu bagian cacat yang menjamin tidak akan melebihi tingkat tertentu dari bagian yang rusak yang melalui tidak terdeteksi. Demikian pula, sebuah lembaga yang membuat keputusan untuk persetujuan obat berdasarkan pada nilai-P "jujur" memiliki cara untuk menjaga tingkat penolakan palsu pada tingkat yang terkendali, menurut definisi melalui konstruksi tes jangka panjang yang sering dilakukan. Di sini, "jujur" berarti tidak adanya bias yang tidak terkendali, pilihan tersembunyi, dll.
Namun, baik robot, maupun agensi tidak memiliki kepentingan pribadi dalam obat tertentu atau bagian yang melewati konveyor perakitan. Dalam sains, di sisi lain, kita, sebagai penyelidik individual paling peduli pada hipotesis khusus yang kita pelajari, daripada tentang proporsi klaim palsu dalam jurnal favorit yang kita ajukan. Baik besaran P-value maupun batas interval kepercayaan (CI) tidak merujuk langsung ke pertanyaan kami tentang kredibilitas apa yang kami laporkan. Ketika kita membangun batas CI, kita harus mengatakan bahwa satu-satunya makna dari dua angka adalah bahwa jika ilmuwan lain melakukan jenis perhitungan CI yang sama dalam studi mereka, cakupan 95% atau apa pun akan dipertahankan pada berbagai penelitian secara keseluruhan. .
Dalam hal ini, saya merasa ironis bahwa nilai-P sedang "dilarang" oleh jurnal, mengingat bahwa di tengah krisis replikasi, nilai-nilai itu lebih bernilai bagi editor jurnal daripada bagi para peneliti yang menyerahkan makalah mereka, sebagai cara praktis menjaga tingkat temuan palsu yang dilaporkan oleh jurnal di teluk, dalam jangka panjang. Nilai-P bagus dalam menyaring, atau seperti yang ditulis IJ Good, nilai-nilai itu bagus untuk melindungi ujung belakang ahli statistik, tetapi tidak terlalu banyak pada bagian belakang klien.
PS Saya penggemar Benjamini dan ide Hochberg untuk mengambil ekspektasi tanpa syarat di berbagai studi dengan berbagai tes. Di bawah global "null", FDR "frequentist" masih dikontrol - studi dengan satu atau lebih penolakan muncul dalam jurnal pada tingkat yang terkontrol, meskipun, dalam kasus ini, setiap studi di mana beberapa penolakan telah dilakukan sebenarnya memiliki proporsi penolakan palsu yang sama dengan satu.
sumber
Saya setuju dengan Matt bahwa nilai-p berguna ketika hipotesis nol benar.
Contoh paling sederhana yang dapat saya pikirkan adalah menguji generator angka acak. Jika generator bekerja dengan benar, Anda dapat menggunakan ukuran sampel sesuai realisasi dan ketika menguji kecocokan banyak sampel, nilai-p harus memiliki distribusi yang seragam. Jika mereka melakukannya, ini adalah bukti yang baik untuk implementasi yang benar. Jika tidak, Anda tahu Anda telah membuat kesalahan di suatu tempat.
Situasi serupa lainnya terjadi ketika Anda tahu statistik atau variabel acak harus memiliki distribusi tertentu (sekali lagi, konteks yang paling jelas adalah simulasi). Jika nilai-p seragam, Anda telah menemukan dukungan untuk implementasi yang valid. Jika tidak, Anda tahu Anda memiliki masalah di suatu tempat dalam kode Anda.
sumber
Saya dapat memikirkan contoh di mana nilai-p berguna, dalam Fisika Energi Tinggi Eksperimental. Lihat Gambar. 1 Plot ini diambil dari makalah ini: Pengamatan partikel baru dalam pencarian untuk Standard Model Higgs boson dengan detektor ATLAS di LHC
sumber