Apakah nilai tepat 'nilai-p' tidak ada artinya?

31

Saya telah berdiskusi dengan ahli statistik pada tahun 2009 di mana dia menyatakan bahwa nilai pasti dari nilai-p tidak relevan: satu-satunya hal yang penting adalah apakah itu signifikan atau tidak. Yaitu satu hasil yang tidak bisa lebih penting dari yang lain; contoh Anda, baik berasal dari populasi yang sama atau tidak.

Saya memiliki beberapa keraguan dengan ini, tetapi saya mungkin dapat memahami ideologinya:

  1. Ambang 5% adalah arbitrer, yaitu p = 0,051 tidak signifikan dan p = 0,049, seharusnya tidak benar-benar mengubah kesimpulan pengamatan atau percobaan Anda, meskipun satu hasil signifikan dan yang lainnya tidak signifikan.

    Alasan saya mengemukakan ini sekarang adalah karena saya sedang belajar untuk gelar MSc dalam Bioinformatika, dan setelah berbicara dengan orang-orang di lapangan, tampaknya ada dorongan yang ditentukan untuk mendapatkan nilai p yang tepat untuk setiap set statistik yang mereka lakukan. Misalnya, jika mereka 'mencapai' nilai p dari p <1,9 × 10 -12 , mereka ingin menunjukkan BAGAIMANA signifikan hasil mereka, dan bahwa hasil ini SUPER informatif. Masalah ini dicontohkan dengan pertanyaan seperti: Mengapa saya tidak bisa mendapatkan nilai p lebih kecil dari 2.2e-16? , di mana mereka ingin mencatat nilai yang menunjukkan bahwa secara kebetulan ini akan menjadi JAUH kurang dari 1 dalam satu triliun. Tetapi saya melihat sedikit perbedaan dalam menunjukkan bahwa hasil ini akan terjadi kurang dari 1 dalam satu triliun dibandingkan dengan 1 dalam satu miliar.

  2. Saya dapat menghargai bahwa p <0,01 menunjukkan bahwa ada kemungkinan kurang dari 1% bahwa ini akan terjadi, sedangkan p <0,001 menunjukkan bahwa hasil seperti ini bahkan lebih tidak mungkin daripada nilai-p yang disebutkan di atas, tetapi haruskah kesimpulan Anda diambil sepenuhnya berbeda? Bagaimanapun keduanya adalah nilai-p yang signifikan. Satu-satunya cara saya bisa membayangkan ingin mencatat nilai-p yang tepat adalah selama koreksi Bonferroni di mana ambang batas berubah karena jumlah perbandingan yang dibuat, sehingga mengurangi kesalahan tipe I. Tetapi bahkan tetap saja, mengapa Anda ingin menunjukkan nilai p yang 12 perintah besarnya lebih kecil dari signifikansi ambang Anda?

  3. Dan bukankah menerapkan koreksi Bonferroni itu sendiri sedikit sewenang-wenang juga? Dalam arti bahwa koreksi awalnya dipandang sangat konservatif, dan oleh karena itu ada koreksi lain yang dapat dipilih untuk mengakses tingkat signifikansi yang dapat digunakan pengamat untuk berbagai perbandingannya. Tetapi karena ini, bukankah titik di mana sesuatu menjadi signifikan pada dasarnya variabel tergantung pada statistik apa yang peneliti ingin gunakan. Haruskah statistik begitu terbuka untuk interpretasi?

Sebagai kesimpulan, bukankah statistik seharusnya tidak terlalu subyektif (walaupun saya kira kebutuhan untuk itu menjadi subyektif adalah sebagai konsekuensi dari sistem multivariat), tetapi pada akhirnya saya ingin beberapa klarifikasi: dapatkah sesuatu lebih penting daripada sesuatu yang lain? Dan akankah p <0,001 cukup untuk mencoba mencatat nilai p yang tepat?

Mark Ramotowski
sumber
6
Ini cukup menarik: stat.washington.edu/peter/342/nuzzo.pdf
Dan
4
Terkait longgar: Dalam jawaban saya terhadap pertanyaan Kapan menggunakan kerangka kerja Fisher dan Neyman-Pearson , saya berpendapat bahwa ada peran untuk setiap kerangka kerja. Dengan mempertahankan posisi saya di sana, saya akan mengatakan bahwa nilai-p yang tepat tidak akan menjadi masalah dalam w / i kerangka kerja NP, tetapi dapat dengan kerangka kerja Fisher (sejauh jumlah angka yang dilaporkan benar-benar dapat diandalkan).
gung - Reinstate Monica
Sungguh menakjubkan betapa banyak ahli statistik ingin mempertahankan konsep nilai-p ketika biasanya jawaban yang tepat untuk pertanyaan yang salah. Misalkan nilai-p tidak diterapkan dalam paket perangkat lunak statistik apa pun. Saya ragu orang akan menulis kode mereka sendiri untuk mendapatkannya.
probabilityislogic
3
@probabilityislogic - setelah memotong statistik saya pada tes permutasi, nilai-p adalah cara yang sangat alami untuk berpikir dalam kasus itu, jadi saya mungkin hanya menulis kode saya sendiri untuk mendapatkannya jika tidak ... dan pada kenyataannya, pada pada kesempatan yang sangat langka ketika saya melakukan tes sama sekali, mereka biasanya untuk beberapa situasi yang tidak biasa yang memerlukan simulasi atau beberapa bentuk resampling, saya telah menemukan saya sebenarnya cenderung melakukannya. Saya cenderung mengatakan bahwa tes hipotesis biasanya menjawab pertanyaan yang salah. Pada kesempatan langka yang mereka lakukan, saya pikir mereka memiliki nilai (paling tidak, orang lain tidak terikat oleh tingkat signifikansi saya).
Glen_b -Reinstate Monica
@ glen_b - masalah saya dengan nilai-p adalah bahwa tidak memberikan "jawaban" untuk setiap tes hipotesis sendiri, karena mereka mengabaikan alternatif. Jika Anda dibatasi hanya satu angka, maka nilai kemungkinan data adalah statistik yang jauh lebih baik daripada nilai-p (serta memiliki masalah yang sama dengan p). Dengan cara ini orang tidak terikat oleh statistik uji pilihan Anda (selain tidak terikat oleh ambang batas Anda untuk signifikansi).
probabilityislogic

Jawaban:

24
  1. Jenis kesalahan penolakan 1 / salah tipe tidak sepenuhnya arbitrer, tapi ya, hampir. Agak lebih disukai daripada α = .051 karena kurang kompleks secara kognitif ( orang menyukai angka bulat dan kelipatan lima ). Ini adalah kompromi yang layak antara skeptisisme dan kepraktisan, meskipun mungkin sedikit ketinggalan zaman - metode modern dan sumber daya penelitian dapat membuat standar yang lebih tinggi (yaitu, nilai p yang lebih rendah ) lebih disukai, jika standar harus ada ( Johnson, 2013 ) .α=0,05α=0,051hal

    IMO, masalah yang lebih besar daripada pemilihan ambang batas adalah pilihan yang sering tidak diperiksa untuk menggunakan ambang batas yang tidak perlu atau tidak membantu. Dalam situasi di mana pilihan praktis harus dibuat, saya bisa melihat nilainya, tetapi banyak penelitian dasar tidak mengharuskan keputusan untuk mengabaikan bukti seseorang dan menyerah pada prospek menolak nol hanya karena bukti sampel tertentu terhadapnya gagal. dari hampir semua ambang batas yang masuk akal. Namun banyak dari penulis penelitian ini merasa berkewajiban untuk melakukannya dengan konvensi, dan menolaknya dengan tidak nyaman, menciptakan istilah-istilah seperti signifikansi "marjinal" untuk meminta perhatian ketika mereka dapat merasa itu hilang karena audiens mereka sering tidak peduli tentang s . 05 .hal0,05halinterpretasi nilai, Anda akan melihat banyak pertikaian tentang interpretasi nilai oleh biner / keputusan tentang nol.halfail toreject

  2. halhalhal

    hal

  3. α

    hal

fail torejecthal-nilai dilaporkan? (dan mengapa R menempatkan minimum pada 2.22e-16?) "- jauh lebih baik daripada jawaban untuk versi pertanyaan yang Anda tautkan di Stack Overflow!

Referensi
- Johnson, VE (2013). Revisi standar untuk bukti statistik. Prosiding Akademi Sains Nasional, 110 (48), 19313–19317. Diperoleh dari http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). Ke P atau tidak ke P: Tentang sifat bukti nilai-P dan tempatnya dalam inferensi ilmiah. arXiv: 1311.0081 [stat.ME]. Diperoleh dari http://arxiv.org/abs/1311.0081 .

Nick Stauner
sumber
3
+1, banyak pemikiran bagus di sini. 1 berdalih, ulang # 1, saya akan mengatakan kita harus sering memiliki standar yang lebih rendah (yaitu, nilai-p yang lebih tinggi ) sebagai lebih disukai. Seringkali sulit untuk mendapatkan data yang cukup untuk memiliki kekuatan yang baik untuk mempelajari sesuatu. Saya telah menjalankan sejumlah analisis kekuatan untuk dokter yang ingin mempelajari kondisi langka. Mereka mengatakan, 'ini benar-benar tidak diketahui, saya punya ide untuk pendekatan baru, kita mungkin bisa mendapatkan 50 pasien dengan ini selama dua tahun ke depan', & saya mengatakan 'kekuatanmu akan menjadi 45%', dan proyek ini adalah ditinggalkan. Penyakit langka akan terus digantikan jika p harus 0,05 atau kurang.
gung - Reinstate Monica
2
@ungung: Saya sepenuhnya setuju. Saya mengutip Johnson (2013) hanya karena saya menyadari argumennya, bukan karena saya setuju dengan itu :) IMO, memiliki satu standar konvensional yang tidak fleksibel dan tidak sensitif terhadap masalah yang Anda jelaskan (yang menggemakan poin saya di paragraf kedua dari saya Menanggapi # 3) adalah salah satu masalah inti, dan menyesuaikannya naik atau turun tidak akan menyelesaikannya. Ketika tidak ada kebutuhan nyata untuk keputusan yang sulit dan cepat fail to/ reject, saya pikir itu jauh lebih baik untuk membuat penilaian tentang betapa berharganya bukti seseorang didasarkan pada lebih dari probabilitas sampel yang diberikan nol.
Nick Stauner
4
Diskusi yang sangat baik. Artikel yang menarik dari beberapa relevansi adalah Gelman and Stern's . Perbedaan antara "signifikan" dan "tidak signifikan" itu sendiri tidak signifikan secara statistik (kemudian diterbitkan dalam American Statistician, 2006), yang saya tidak akan katakan mencirikan nilai p seperti yang seharusnya. tidak berarti tetapi akan menyuntikkan perhatian yang kuat dalam hal menempatkan banyak penekanan pada membandingkan nilai-p (daripada perkiraan efek, katakanlah). Gelman telah membahas masalah-masalah yang berkaitan dengan hal ini di blog-nya.
Glen_b -Reinstate Monica
2
halhalhal
2
Tampaknya Gelman memberikan tautan ke pdf dari makalah yang diterbitkan di situsnya juga.
Glen_b -Reinstate Monica
13

Menurut saya, jika suatu nilai bermakna, nilai pastinya bermakna.

Nilai p menjawab pertanyaan ini:

Jika, dalam populasi dari mana sampel ini diambil secara acak, hipotesis nol itu benar, berapakah probabilitas mendapatkan statistik uji setidaknya sama ekstrim dengan yang kami dapatkan dalam sampel?

Bagaimana dengan definisi ini membuat nilai yang tepat tidak berarti?

Ini adalah pertanyaan yang berbeda dari yang tentang nilai ekstrim p. Masalah dengan pernyataan yang melibatkan p dengan banyak 0 adalah tentang seberapa baik kita dapat memperkirakan p dalam ekstrem. Karena kita tidak dapat melakukan itu dengan sangat baik, tidak masuk akal untuk menggunakan estimasi tepat seperti p. Ini adalah alasan yang sama kita tidak mengatakan bahwa p = 0,0319281010012981. Kami tidak tahu angka-angka terakhir dengan keyakinan.

Haruskah kesimpulan kami berbeda jika p <0,001 daripada p <0,05? Atau, untuk menggunakan angka yang tepat, haruskah kesimpulan kami berbeda jika p = 0,00023 daripada p = 0,035?

Saya pikir masalahnya adalah bagaimana kita biasanya menyimpulkan hal-hal tentang hal. Kami mengatakan "signifikan" atau "tidak signifikan" berdasarkan pada tingkat arbitrer. Jika kita menggunakan level sewenang-wenang ini, maka, ya, kesimpulan kami akan berbeda. Tetapi ini bukan bagaimana kita harus memikirkan hal-hal ini. Kita harus melihat bobot bukti dan uji statistik hanya bagian dari bukti itu. Saya akan (sekali lagi) memasang "Kriteria MAGIC" Robert Abelson:

Besarnya - seberapa besar pengaruhnya?

Artikulasi - seberapa tepatnya dinyatakan? Apakah ada banyak pengecualian?

Umum - untuk kelompok apa itu berlaku?

Ketertarikan - apakah orang akan peduli?

Kredibilitas - apakah masuk akal?

Kombinasi dari semua ini yang penting. Perhatikan bahwa Abelson tidak menyebutkan nilai p sama sekali, meskipun mereka datang sebagai semacam hibrida dari besarnya dan artikulasi.

Peter Flom - Pasang kembali Monica
sumber
5
Kita tidak sering mengatakannya, tetapi secara teknis nilai-p hanya mencerminkan sesuatu tentang "kemungkinan mendapatkan statistik uji setidaknya sama ekstrim dengan yang kita dapatkan dalam sampel" jika hipotesis nol benar, perkiraan sampel kami dari varians populasi sangat akurat, dan kami memenuhi semua asumsi lain dari pengujian kami. Lemparkan beberapa interval kepercayaan di sekitar beberapa nilai-p melalui bootstrap dan saya pikir Anda akan melihat bahwa sering kali kita tidak terlalu percaya diri tentang tempat keseratus juga.
russellpierce
2
Singkatnya, ini adalah kontra-faktual yang berbelit-belit sehingga upaya untuk menghitung nilai-p adalah kontra produktif ketika kita benar-benar harus (seperti yang Anda maksudkan) kembali ke MAGIC.
russellpierce
Saya harus mengakui, saya tidak berpikir untuk menempatkan interval kepercayaan (atau interval kredibilitas) di sekitar nilai p. Saya bertanya-tanya berapa banyak yang telah dilakukan di bidang ini?
Peter Flom - Reinstate Monica
2
Saya tidak memiliki kutipan yang mudah digunakan, tetapi saya tahu ada pekerjaan di sepanjang garis itu - terlepas dari itu, ini adalah hal akademik yang harus dilakukan karena Anda dapat membuat interval kepercayaan interval kepercayaan Anda dari interval kepercayaan Anda hampir ad infinitum (ada maksimum varians yang diperkirakan secara wajar dari setiap set data). Saya memiliki percakapan yang agak panjang dan rinci dengan @Nick Stauner pada suatu waktu. Dia mungkin masih memiliki beberapa artikel yang dia gali selama percakapan itu untuk dibawa ke meja.
russellpierce
1
Tidak ada pada interval kepercayaan untuk nilai p yang saya ingat, tapi saya mungkin telah membaca bagian-bagian itu. Saya juga tidak tertarik membuat interval kepercayaan untuk nilai p ;)
Nick Stauner