Contoh studi menggunakan p <0,001, p <0,0001 atau bahkan nilai p lebih rendah?

11

Saya berasal dari ilmu sosial, di mana p <0,05 cukup banyak norma, dengan p <0,1 dan p <0,01 juga muncul, tetapi saya bertanya-tanya: bidang studi apa, jika ada, menggunakan nilai p lebih rendah sebagai umum standar?

Fr.
sumber

Jawaban:

9

Pendapat saya adalah bahwa hal itu (dan seharusnya) tidak bergantung pada bidang studi. Misalnya, Anda mungkin bekerja pada tingkat signifikansi yang lebih rendah daripada jika, misalnya, Anda mencoba mereplikasi studi dengan hasil historis atau mapan (saya dapat memikirkan beberapa studi tentang efek Stroop , yang telah menyebabkan beberapa kontroversi dalam beberapa tahun terakhir). Itu berarti mempertimbangkan "ambang batas" yang lebih rendah dalam kerangka klasik Neyman-Pearson untuk menguji hipotesis. Namun, signifikansi statistik dan praktis (atau substantif) adalah masalah lain.p<0.001

Sidenote . "Sistem bintang" tampaknya telah mendominasi penyelidikan ilmiah pada awal tahun 70-an, tetapi lihat The Earth Is Round (p <.05), oleh J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), Terlepas dari kenyataan bahwa apa yang sering ingin kita ketahui adalah data yang saya amati, berapakah probabilitas bahwa benar? Lagi pula, ada juga diskusi yang bagus tentang " Mengapa P = 0,05? ", Oleh Jerry Dallal.H0

chl
sumber
Harap perbaiki pemikiran saya: beberapa bidang mungkin fokus pada, katakanlah, paparan biokimia, dan karenanya ingin menggunakan p <0,001 untuk mencegah kesalahan Tipe I apa pun yang dapat menyebabkan bahaya kesehatan. Juga, di sepanjang artikel ini dari Am Psych , saya juga ingat sebuah penelitian yang bagus di Am J dari Sociol atau salah satu jurnal soc sci yang saya ikuti. Favorit saya adalah, tentu saja, Ziliak dan McCloskey .
Fr.
1
Apa yang Anda gambarkan di sini kedengarannya terbalik. Saya akan khawatir tentang kesalahan Tipe II, mengatakan ada sesuatu yang tidak ada di sana ketika itu, dengan paparan biokimia. Dalam hal ini saya mungkin menetapkan alpha lebih tinggi, bukan lebih rendah.
John
Saya bekerja di bawah asumsi bahwa tes akan berupa: "Mari kita menilai apakah kehamilan terkait dengan HRT" (dalam hal itu, kesalahan Tipe I lebih serius daripada kesalahan Tipe II, tetapi mungkin desain ini tidak standar).
Fr.
7

Mungkin jarang ada orang yang menggunakan tingkat alfa yang ditentukan sebelumnya lebih rendah dari, katakanlah 0,01, tetapi tidak jarang orang mengklaim alpha tersirat kurang dari 0,01 dalam keyakinan yang keliru bahwa nilai P yang diamati kurang dari 0,01 sama dengan alpha Neyman-Pearson kurang dari 0,01.

Nilai P Fisher tidak sama dengan, atau dapat dipertukarkan dengan, tingkat kesalahan Neyman-Pearson. tidak berarti kecuali seseorang telah memutuskan untuk menggunakan sebagai tingkat kritis untuk signifikansi ketika percobaan dirancang. Jika Anda akan mengambil sebagai signifikan maka berarti bahwa ada kemungkinan dari klaim positif palsu.α = 0,0023 0,0023 P = 0,05 P = 0,0023 0,05P=0.0023α=0.00230.0023P=0.05P=0.00230.05

Lihatlah Hubbard et al. Kebingungan tentang Ukuran Bukti (p) versus Kesalahan (α) dalam Pengujian Statistik Klasik. The American Statistician (2003) vol. 57 (3)

Michael Lew
sumber
Saya mengerti perbedaannya, meskipun saya mungkin melakukan kesalahan secara rutin. Tetapi pertanyaan saya adalah, apakah ada penggunaan konvensional, di suatu tempat di luar sana, dari p <.0001 misalnya? Atau, secara sederhana, apakah kultus itu universal?
Fr.
'Kultus' P <0,05 mungkin hampir universal, tetapi tidak mungkin untuk percaya diri tentang pernyataan tentang hal ini karena pengecualian yang jelas kemungkinan besar merupakan hasil hibridisasi yang tidak diketahui dari metode Fisher dan Neyman-Pearson. Dalam makalah penelitian farmakologis dasar hampir tidak pernah ada pernyataan eksplisit mengenai penggunaan tingkat kesalahan Neyman-Pearson.
Michael Lew
Terima kasih untuk contohnya. Saya semakin kurang terkesan dengan penelitian farmakologis, karena banyak alasan (tidak semua ilmiah) ...
Fr.
1
Anda tidak boleh mengambil komentar saya tentang penelitian farmakologis dasar sebagai kritik khusus bidang itu, itu hanya disiplin khusus saya sendiri dan dengan demikian yang saya paling alami. Saya yakin bahwa Anda akan menemukan banyak bidang dalam penelitian dasar dengan kekurangan yang persis sama sehubungan dengan nilai P hibridisasi dan tingkat kesalahan.
Michael Lew
Jangan khawatir, saya dapat dengan mudah membayangkan bahwa kekurangan ini berjalan baik di berbagai bidang penyelidikan.
Fr.
3

Saya tidak terlalu terbiasa dengan literatur ini tetapi saya percaya beberapa fisikawan menggunakan ambang batas yang jauh lebih rendah dalam tes statistik tetapi mereka membicarakannya sedikit berbeda. Sebagai contoh, jika ukuran adalah tiga standar deviasi dari prediksi teoritis, itu digambarkan sebagai penyimpangan "tiga sigma". Pada dasarnya, ini berarti bahwa parameter minat secara statistik berbeda dari nilai prediksi dalam uji az dengan α = 0,01. Dua sigma kira-kira setara dengan α = .05 (pada kenyataannya itu akan menjadi 1,96 σ). Jika saya tidak salah, tingkat kesalahan standar dalam fisika adalah 5 sigma, yang akan menjadi α = 5 * 10 ^ -7

Juga, dalam ilmu saraf atau epidemiologi, tampaknya semakin umum untuk melakukan koreksi beberapa perbandingan secara rutin. Level kesalahan untuk setiap tes individu karena itu bisa lebih rendah dari p <.01

Gala
sumber
1
Epidemiologi genetik secara rutin menggunakan dalam studi asosiasi genomewide, seringkali terlepas dari jumlah tes yang dilakukan. α=5×108
tamu
1

Seperti dicatat oleh Gaël Laurans di atas analisis statistik yang mengalami masalah perbandingan banyak cenderung menggunakan ambang batas yang lebih konservatif. Namun, pada dasarnya mereka menggunakan 0,05, tetapi dikalikan dengan jumlah tes. Jelas bahwa prosedur ini (koreksi Bonferroni) dapat dengan cepat menyebabkan nilai-p yang sangat kecil. Itu sebabnya orang-orang di masa lalu (dalam ilmu saraf) berhenti pada p <0,001. Saat ini metode lain dari koreksi perbandingan banyak digunakan (lihat teori medan acak Markov).

pengguna12719
sumber