Mengenai nilai-p, mengapa 1% dan 5%? Kenapa tidak 6% atau 10%?

80

Mengenai , saya bertanya-tanya mengapa 1 % dan 5 % tampaknya menjadi standar emas untuk "statistical significance". Mengapa tidak nilai lain, seperti 6 % atau 10 %?

Apakah ada alasan matematika mendasar untuk ini, atau ini hanya konvensi yang diadakan secara luas?

Contango
sumber
2
Bagaimana jika setiap orang memiliki 12 jari? Kami akan menghitung basis 12, bukan basis 10. Dan itu berarti bahwa "1%" adalah 1/144 atau 0,0069444444.
Contango

Jawaban:

77

Jika Anda memeriksa referensi di bawah ini, Anda akan menemukan sedikit variasi di latar belakang, meskipun ada beberapa elemen umum.

Angka-angka itu setidaknya sebagian didasarkan pada beberapa komentar dari Fisher, di mana dia mengatakan

(sambil mendiskusikan level 1/20)

Lebih mudah mengambil poin ini sebagai batasan dalam menilai apakah penyimpangan dianggap signifikan atau tidak. Dengan demikian, penyimpangan yang melebihi dua kali standar deviasi secara formal dianggap signifikan

Fisher, RA (1925) Metode Statistik untuk Pekerja Penelitian , hal. 47

Di sisi lain, ia terkadang lebih luas:

Jika satu dari dua puluh peluang tidak kelihatan cukup tinggi, kita dapat, jika kita mau, menarik garis pada satu dari lima puluh (titik 2 persen), atau satu dalam seratus (titik 1 persen). Secara pribadi, penulis lebih suka menetapkan standar signifikansi rendah pada titik 5 persen, dan mengabaikan sepenuhnya semua hasil yang gagal mencapai tingkat ini. Sebuah fakta ilmiah harus dianggap sebagai eksperimen hanya jika eksperimen yang dirancang dengan baik jarang gagal memberikan tingkat signifikansi ini.

Fisher, RA (1926) Pengaturan percobaan lapangan .
Jurnal Departemen Pertanian, hal. 504

Fisher juga menggunakan 5% untuk salah satu tabel bukunya - tetapi sebagian besar tabel lainnya memiliki variasi tingkat signifikansi yang lebih besar

Beberapa komentarnya menyarankan pendekatan yang lebih atau kurang ketat (yaitu tingkat alfa lebih rendah atau lebih tinggi) dalam situasi yang berbeda.

Diskusi semacam itu di atas mengarah pada kecenderungan untuk menghasilkan tabel yang berfokus pada tingkat signifikansi 5% dan 1% (dan kadang-kadang dengan yang lain, seperti 10%, 2% dan 0,5%) karena ingin menggunakan nilai 'standar' apa pun untuk digunakan.

Namun, dalam makalah ini , Cowles dan Davis menyarankan bahwa penggunaan 5% - atau sesuatu yang dekat dengannya setidaknya - kembali lebih jauh dari komentar Fisher.

Singkatnya, penggunaan 5% kami (dan pada tingkat lebih rendah 1%) adalah konvensi yang sewenang-wenang, meskipun jelas banyak orang tampaknya merasa bahwa untuk banyak masalah mereka berada di jenis ballpark yang tepat.

Tidak ada alasan baik nilai tertentu harus digunakan secara umum.

Referensi lebih lanjut:

Dallal, Gerard E. (2012). The Little Handbook of praktik statistik. - Mengapa 0,05?

Stigler, Stephen (Desember 2008). "Fisher dan level 5%". Peluang 21 (4): 12. tersedia di sini

(Di antara mereka, Anda mendapatkan sedikit latar belakang yang adil - memang terlihat seperti di antara mereka ada kasus yang baik untuk berpikir tingkat signifikansi setidaknya di stadion baseball umum 5% - katakanlah antara 2% dan 10% - sudah kurang lebih di udara sebentar.)

Glen_b
sumber
36

Saya harus memberikan jawaban (sama seperti di sini ):

"... tentu saja, Tuhan mencintai 0,06 hampir sama dengan 0,05. Bisakah ada keraguan bahwa Tuhan memandang kekuatan bukti untuk atau melawan nol sebagai fungsi yang cukup berkesinambungan dari besarnya p?" (hal.1277)

Rosnow, RL, & Rosenthal, R. (1989). Prosedur statistik dan pembenaran pengetahuan dalam ilmu psikologi. American Psychologist , 44 (10), 1276-1284. pdf

Makalah ini berisi beberapa diskusi lagi tentang masalah ini.

Henrik
sumber
9
Dan bagaimana dengan 0,055? :)
nico
33
@nico Tidak ada yang suka 0,055
Fomite
18

Saya percaya ada beberapa psikologi yang mendasari untuk 5%. Saya harus mengatakan saya tidak ingat di mana saya mengambil ini, tapi inilah latihan yang biasa saya lakukan dengan setiap kelas statistik intro sarjana.

Bayangkan seorang asing mendekati Anda di sebuah pub dan memberi tahu Anda, "Saya memiliki koin bias yang menghasilkan kepala lebih sering daripada ekor. Apakah Anda ingin membeli satu dari saya, sehingga Anda bisa bertaruh dengan teman-teman Anda dan menghasilkan uang untuk itu?" Anda ragu-ragu setuju untuk melihatnya, dan melemparkan koin katakan 10 kali. Pertanyaan : berapa kali harus mendarat kepala / ekor untuk meyakinkan Anda bahwa itu bias?

Lalu saya mengambil satu tangan: siapa yang akan diyakinkan bahwa koin itu bias jika pembagiannya 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Nah, dua atau tiga yang pertama tidak akan meyakinkan siapa pun, dan yang terakhir akan meyakinkan semua orang; 2/8 dan 1/9 akan meyakinkan kebanyakan orang. Sekarang, jika Anda melihat tabel binomial, 2/8 adalah 5,5%, dan 1/9 adalah 1%. QED.

n

Dalam jawaban lain, Glen_b mengutip Fisher yang memberikan diskusi tentang apakah angka ajaib ini harus dimodifikasi tergantung pada seberapa serius masalahnya, jadi tolong jangan buat itu "Ada pengobatan baru untuk leukemia adikmu, tetapi itu akan menyembuhkannya di 3 bulan atau bunuh dia dalam 3 hari, jadi mari kita melempar beberapa koin "- ini akan terlihat sama konyolnya dengan komik xkcd terkenal yang bahkan Andrew Gelman tidak terlalu menyukainya.

χ2 menguji proporsi dan kekuatannya.

Tugas
sumber
3
Pesulap sering dapat mengontrol membalik koin. Ahli statistik-ahli matematika-penyihir (permutasi terhadap selera) Persi Diaconis terkenal akan hal ini (dan masih banyak lagi).
Nick Cox
@StasK - Beberapa tahun yang lalu, saya mengajukan pertanyaan yang mirip dengan apa yang ada di paragraf kedua Anda di atas. Inilah tautannya: stats.stackexchange.com/questions/7036/…
bill_080
tagihan, Anda bertanya tentang kekuatan, pada dasarnya. Pertanyaan ini membahas tingkat ujian.
Tugas
9

5% tampaknya telah dibulatkan dari 4,56% oleh Fisher, sesuai dengan "area ekor dari kurva di luar rata-rata ditambah tiga atau minus tiga kemungkinan kesalahan" (Hurlbert & Lombardi, 2009).

Elemen lain dari cerita ini tampaknya adalah reproduksi tabel dengan vlaues kritis (Pearson et al., 1990; Lehmann, 1993). Fisher tidak diberi izin oleh Pearson untuk menggunakan mejanya (mungkin keduanya karena pemasaran publikasi Pearson sendiri (Hurlbert & Lombardi, 2009) dan sifat bermasalah dari hubungan mereka.

Hurlbert, SH, & Lombardi, CM (2009, Oktober). Keruntuhan akhir kerangka teori keputusan Neyman-Pearson dan kebangkitan neoFisherian. Dalam Annales Zoologici Fennici (Vol. 46, No. 5, hlm. 311-349). Penerbitan Zoologi dan Botani Finlandia

Lehmann, EL (1993). The Fisher, Neyman-Pearson teori pengujian hipotesis: Satu atau dua teori ?. Jurnal Asosiasi Statistik Amerika, 88 (424), 1242-1249.

Pearson, ES, Gosset, WS, Plackett, RL, & Barnard, GA (1990). Mahasiswa: biografi statistik William Sealy Gosset. Oxford University Press, AS.

Lihat juga: Gigerenzer, G. (2004). Statistik tanpa pikiran. Jurnal Sosial Ekonomi, 33 (5), 587-606.

Hubbard, R., & Lindsay, RM (2008). Mengapa nilai P bukan ukuran bukti yang berguna dalam pengujian signifikansi statistik. Teori & Psikologi, 18 (1), 69-88.

jank
sumber
7

Menurut saya jawabannya lebih pada teori permainan penelitian daripada statistik. Memiliki 1% dan 5% terbakar ke dalam kesadaran umum berarti bahwa para peneliti tidak secara efektif bebas untuk memilih tingkat signifikansi yang sesuai dengan kecenderungan mereka. Katakanlah kita melihat kertas dengan nilai-p 0,055 dan di mana tingkat signifikansi ditetapkan pada 6% - pertanyaan akan ditanyakan. 1% dan 5% memberikan bentuk komitmen yang kredibel.

dugaan
sumber
7
Mungkin, tetapi apakah Anda pikir para peneliti tidak memanipulasi regresi, menggunakan pengujian berulang, dll untuk menekan di bawah tingkat 5% yang ditetapkan misalnya ...
kirk
Tentu saja itu mungkin, dan mungkin terjadi. Tetapi pertanyaannya adalah sekitar 1% dan 5%. Menurut saya itu adalah upaya untuk membuat konvensi sosial tentang kapan menerima sesuatu yang penting. Ini arbitrer, tetapi mereka arbitrer untuk peneliti sebagai grup daripada arbitrer untuk peneliti individu.
Dugaan
3
Setuju, saya baru saja menunjukkan bahwa memiliki tingkat signifikansi konvensional tidak berarti pertanyaan tidak boleh ditanyakan, seperti yang Anda simpulkan dalam posting Anda. Hanya karena sebuah makalah menyajikan hasil yang signifikan pada tingkat konvensional tidak berarti itu kredibel!
Kirk
Ah, saya menggunakan kredibilitas dalam arti teori permainan (atau berusaha untuk). Seperti dalam diri Anda, membuat ancaman dapat dipercaya jika itu bukan sesuatu yang dapat Anda mundur atau ubah pikiran nanti. Dalam hal ini masing-masing peneliti akan mengalami kesulitan turun pada beberapa ambang batas sewenang-wenang lainnya.
dugaan
2
p
6

Hipotesis pribadi saya adalah 0,05 (atau 1 dari 20) dikaitkan dengan nilai / z dari (sangat dekat dengan) 2. Menggunakan 2 itu baik, karena sangat mudah dikenali jika hasil Anda signifikan secara statistik. Tidak ada pertemuan angka bulat lainnya.

Jeremy Miles
sumber
7
Z=1Z=3
9
1/31/201/4001/16000z=1,2,3,4
1
:) Hmm ... poin bagus. Tetapi Anda harus dibatasi oleh apa yang akan Anda gunakan sebagai cut-off - 1/3 agak longgar, 1/400 sentuhan yang ketat.
Jeremy Miles
10
Itulah tepatnya yang saya maksudkan, Jeremy: tradisi 5% dan 1% didasarkan, setidaknya sebagian, pada konsep risiko statistik ("sedikit longgar" atau "sentuhan keras") dan pada awalnya tidak berasal dari aturan praktis yang praktis.
whuber
1
Z=11/π
6

Satu-satunya angka yang benar adalah 0,04284731

... yang merupakan respons sembrono yang dimaksudkan untuk berarti bahwa pilihan .05 pada dasarnya sewenang-wenang. Saya biasanya hanya melaporkan nilai p, daripada apa nilai p lebih besar atau kurang.

"Signifikansi" adalah variabel kontinu, dan, menurut saya, mendiskritkannya sering kali lebih berbahaya daripada kebaikan. Maksud saya, jika p = .13, Anda memiliki kepercayaan diri lebih dari jika p = .21 dan kurang dari jika p = .003

generic_user
sumber
Nah, pada masa-masa tabel seseorang lebih atau kurang dipaksa untuk mendiskritisasi ... karena tabel digunakan dalam pengajaran, ini berlanjut ...
kjetil b halvorsen
@ kjetilbhalvorsen baik pembuat tabel jelas keliru karena tidak memilih 0,04284731 untuk nilai kritis mereka.
generic_user
2

Ini adalah area pengujian hipotesis yang selalu membuat saya terpesona. Khususnya karena suatu hari seseorang memutuskan nomor acak yang mendikotomi prosedur pengujian dan sejak itu orang jarang mempertanyakannya.

Saya ingat memiliki dosen yang memberi tahu kami untuk tidak terlalu percaya pada tes Staiger dan Stok variabel instrumental (di mana F-stat harus di atas 10 dalam regresi tahap pertama untuk menghindari masalah instrumen yang lemah) karena angka 10 adalah pilihan yang sepenuhnya arbitrer. Saya ingat mengatakan, "Tapi bukankah itu yang kita lakukan dengan pengujian hipotesis reguler ?????"

EconStats
sumber
5
Apakah ini dimaksudkan sebagai jawaban, @EconStats? Sepertinya lebih seperti komentar. Ingatlah bahwa CV tidak dimaksudkan sebagai forum diskusi. Maukah Anda membuat jawaban dengan posting ini lebih menonjol?
gung - Reinstate Monica
1
Maaf @ung. Saya kira maksud saya adalah bahwa, meskipun ada beberapa bukti yang diberikan oleh pengguna lain, saya masih berpikir jawaban yang paling mungkin adalah bahwa kita memiliki sistem penomoran berbasis desimal dan masih digunakan sampai sekarang untuk menghasilkan angka acak untuk pengujian hipotesis misal Staiger dan Stock F-test yang saya sebutkan.
EconStats
1
Sebagai poster asli dari pertanyaan ini, saya yakin ini pasti memenuhi syarat sebagai jawaban. Terima kasih!
Contango
0

Kenapa 1 dan 5? Karena mereka merasa benar.

Saya yakin ada studi tentang nilai emosional dan arti-penting kognitif dari angka-angka tertentu, tetapi kita dapat memahami pilihan 1 dan 5 tanpa harus menggunakan riset.

Orang-orang yang menciptakan statistik hari ini dilahirkan, dibesarkan dan hidup di dunia desimal. Tentu saja ada sistem penghitungan non-desimal, dan menghitung sampai dua belas menggunakan phalang adalah mungkin dan telah dilakukan, tetapi tidak jelas dengan cara yang sama seperti menggunakan jari adalah (yang karena itu disebut "digit", seperti angka-angka ). Dan sementara Anda (dan Fisher) mungkin tahu tentang sistem penghitungan non-desimal, sistem desimal adalah dan telah menjadi sistem penghitungan dominan Anda (dan dunia Fisher) dalam seratus tahun terakhir.

Tetapi mengapa angka lima dan satu istimewa? Karena keduanya adalah pembagian sepuluh dasar yang paling alami: satu jari, satu tangan (atau: setengah).

Anda bahkan tidak perlu melangkah terlalu jauh untuk membuat konsep pecahan dari sepuluh menjadi satu dan lima. Yang satu ada di sana, sama seperti jari Anda ada di sana. Dan membagi dua sesuatu adalah operasi yang lebih sederhana daripada membaginya menjadi bagian lain. Memotong apa pun menjadi dua bagian tidak memerlukan pemikiran, sementara membaginya dengan tiga atau empat sudah cukup rumit.

Sebagian besar sistem mata uang saat ini memiliki koin dan uang kertas dengan nilai-nilai seperti 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Beberapa sistem mata uang tidak memiliki 2, 20 dan 200, tetapi hampir semua memiliki permulaan dalam 1 dan 5. Pada saat yang sama, sebagian besar sistem mata uang tidak memiliki koin atau uang kertas yang dimulai dalam 3, 4, 6, 7, 8 atau 9. Menarik, bukan? Tapi mengapa begitu?

Karena Anda selalu memerlukan sepuluh dari 1s atau dua dari 5s (atau lima dari 2s) untuk sampai pada urutan yang lebih besar berikutnya. Menghitung dengan uang sangat sederhana: kali sepuluh, atau dua kali lipat. Hanya dua jenis operasi. Setiap koin yang Anda miliki adalah setengah atau sepersepuluh dari koin pesanan berikutnya. Angka-angka itu berlipat ganda dan bertambah dengan mudah dan baik.

Jadi 1 dan 5 telah berurat berakar, dari masa kanak-kanak mereka yang paling awal, ke Fisher dan siapa pun yang memilih level signifikansi sebagai divisi 10. yang paling mudah, paling sederhana, paling dasar dari 10. Angka lain membutuhkan argumen untuk itu, sementara ini jumlahnya ada di sana.

Dengan tidak adanya cara obyektif untuk menghitung tingkat signifikansi yang sesuai untuk setiap set data individu, satu dan lima hanya merasa benar.


sumber
"Tanpa harus menggunakan riset." Meskipun saya pikir jawabannya bagus, ini menempatkannya dengan kuat di wilayah opini. Itu akan memberikan banyak kredibilitas dan akan membuat jawabannya lebih berwibawa jika ada sumber untuk mendukung ini.
Momo