Saya telah berdiskusi dengan ahli statistik pada tahun 2009 di mana dia menyatakan bahwa nilai pasti dari nilai-p tidak relevan: satu-satunya hal yang penting adalah apakah itu signifikan atau tidak. Yaitu satu hasil yang tidak bisa lebih penting dari yang lain; contoh Anda, baik berasal dari populasi yang sama atau tidak.
Saya memiliki beberapa keraguan dengan ini, tetapi saya mungkin dapat memahami ideologinya:
Ambang 5% adalah arbitrer, yaitu p = 0,051 tidak signifikan dan p = 0,049, seharusnya tidak benar-benar mengubah kesimpulan pengamatan atau percobaan Anda, meskipun satu hasil signifikan dan yang lainnya tidak signifikan.
Alasan saya mengemukakan ini sekarang adalah karena saya sedang belajar untuk gelar MSc dalam Bioinformatika, dan setelah berbicara dengan orang-orang di lapangan, tampaknya ada dorongan yang ditentukan untuk mendapatkan nilai p yang tepat untuk setiap set statistik yang mereka lakukan. Misalnya, jika mereka 'mencapai' nilai p dari p <1,9 × 10 -12 , mereka ingin menunjukkan BAGAIMANA signifikan hasil mereka, dan bahwa hasil ini SUPER informatif. Masalah ini dicontohkan dengan pertanyaan seperti: Mengapa saya tidak bisa mendapatkan nilai p lebih kecil dari 2.2e-16? , di mana mereka ingin mencatat nilai yang menunjukkan bahwa secara kebetulan ini akan menjadi JAUH kurang dari 1 dalam satu triliun. Tetapi saya melihat sedikit perbedaan dalam menunjukkan bahwa hasil ini akan terjadi kurang dari 1 dalam satu triliun dibandingkan dengan 1 dalam satu miliar.
Saya dapat menghargai bahwa p <0,01 menunjukkan bahwa ada kemungkinan kurang dari 1% bahwa ini akan terjadi, sedangkan p <0,001 menunjukkan bahwa hasil seperti ini bahkan lebih tidak mungkin daripada nilai-p yang disebutkan di atas, tetapi haruskah kesimpulan Anda diambil sepenuhnya berbeda? Bagaimanapun keduanya adalah nilai-p yang signifikan. Satu-satunya cara saya bisa membayangkan ingin mencatat nilai-p yang tepat adalah selama koreksi Bonferroni di mana ambang batas berubah karena jumlah perbandingan yang dibuat, sehingga mengurangi kesalahan tipe I. Tetapi bahkan tetap saja, mengapa Anda ingin menunjukkan nilai p yang 12 perintah besarnya lebih kecil dari signifikansi ambang Anda?
Dan bukankah menerapkan koreksi Bonferroni itu sendiri sedikit sewenang-wenang juga? Dalam arti bahwa koreksi awalnya dipandang sangat konservatif, dan oleh karena itu ada koreksi lain yang dapat dipilih untuk mengakses tingkat signifikansi yang dapat digunakan pengamat untuk berbagai perbandingannya. Tetapi karena ini, bukankah titik di mana sesuatu menjadi signifikan pada dasarnya variabel tergantung pada statistik apa yang peneliti ingin gunakan. Haruskah statistik begitu terbuka untuk interpretasi?
Sebagai kesimpulan, bukankah statistik seharusnya tidak terlalu subyektif (walaupun saya kira kebutuhan untuk itu menjadi subyektif adalah sebagai konsekuensi dari sistem multivariat), tetapi pada akhirnya saya ingin beberapa klarifikasi: dapatkah sesuatu lebih penting daripada sesuatu yang lain? Dan akankah p <0,001 cukup untuk mencoba mencatat nilai p yang tepat?
sumber
Jawaban:
Jenis kesalahan penolakan 1 / salah tipe tidak sepenuhnya arbitrer, tapi ya, hampir. Agak lebih disukai daripada α = .051 karena kurang kompleks secara kognitif ( orang menyukai angka bulat dan kelipatan lima ). Ini adalah kompromi yang layak antara skeptisisme dan kepraktisan, meskipun mungkin sedikit ketinggalan zaman - metode modern dan sumber daya penelitian dapat membuat standar yang lebih tinggi (yaitu, nilai p yang lebih rendah ) lebih disukai, jika standar harus ada ( Johnson, 2013 ) .α = .05 α = .051 hal
IMO, masalah yang lebih besar daripada pemilihan ambang batas adalah pilihan yang sering tidak diperiksa untuk menggunakan ambang batas yang tidak perlu atau tidak membantu. Dalam situasi di mana pilihan praktis harus dibuat, saya bisa melihat nilainya, tetapi banyak penelitian dasar tidak mengharuskan keputusan untuk mengabaikan bukti seseorang dan menyerah pada prospek menolak nol hanya karena bukti sampel tertentu terhadapnya gagal. dari hampir semua ambang batas yang masuk akal. Namun banyak dari penulis penelitian ini merasa berkewajiban untuk melakukannya dengan konvensi, dan menolaknya dengan tidak nyaman, menciptakan istilah-istilah seperti signifikansi "marjinal" untuk meminta perhatian ketika mereka dapat merasa itu hilang karena audiens mereka sering tidak peduli tentang s ≥ . 05 .hal ≥ 0,05 hal interpretasi nilai, Anda akan melihat banyak pertikaian tentang interpretasi nilai oleh biner / keputusan tentang nol.hal
fail to
reject
fail to
reject
Referensi
- Johnson, VE (2013). Revisi standar untuk bukti statistik. Prosiding Akademi Sains Nasional, 110 (48), 19313–19317. Diperoleh dari http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). Ke P atau tidak ke P: Tentang sifat bukti nilai-P dan tempatnya dalam inferensi ilmiah. arXiv: 1311.0081 [stat.ME]. Diperoleh dari http://arxiv.org/abs/1311.0081 .
sumber
fail to
/reject
, saya pikir itu jauh lebih baik untuk membuat penilaian tentang betapa berharganya bukti seseorang didasarkan pada lebih dari probabilitas sampel yang diberikan nol.Menurut saya, jika suatu nilai bermakna, nilai pastinya bermakna.
Nilai p menjawab pertanyaan ini:
Bagaimana dengan definisi ini membuat nilai yang tepat tidak berarti?
Ini adalah pertanyaan yang berbeda dari yang tentang nilai ekstrim p. Masalah dengan pernyataan yang melibatkan p dengan banyak 0 adalah tentang seberapa baik kita dapat memperkirakan p dalam ekstrem. Karena kita tidak dapat melakukan itu dengan sangat baik, tidak masuk akal untuk menggunakan estimasi tepat seperti p. Ini adalah alasan yang sama kita tidak mengatakan bahwa p = 0,0319281010012981. Kami tidak tahu angka-angka terakhir dengan keyakinan.
Haruskah kesimpulan kami berbeda jika p <0,001 daripada p <0,05? Atau, untuk menggunakan angka yang tepat, haruskah kesimpulan kami berbeda jika p = 0,00023 daripada p = 0,035?
Saya pikir masalahnya adalah bagaimana kita biasanya menyimpulkan hal-hal tentang hal. Kami mengatakan "signifikan" atau "tidak signifikan" berdasarkan pada tingkat arbitrer. Jika kita menggunakan level sewenang-wenang ini, maka, ya, kesimpulan kami akan berbeda. Tetapi ini bukan bagaimana kita harus memikirkan hal-hal ini. Kita harus melihat bobot bukti dan uji statistik hanya bagian dari bukti itu. Saya akan (sekali lagi) memasang "Kriteria MAGIC" Robert Abelson:
Besarnya - seberapa besar pengaruhnya?
Artikulasi - seberapa tepatnya dinyatakan? Apakah ada banyak pengecualian?
Umum - untuk kelompok apa itu berlaku?
Ketertarikan - apakah orang akan peduli?
Kredibilitas - apakah masuk akal?
Kombinasi dari semua ini yang penting. Perhatikan bahwa Abelson tidak menyebutkan nilai p sama sekali, meskipun mereka datang sebagai semacam hibrida dari besarnya dan artikulasi.
sumber