Saya ke epidemiologi. Saya bukan ahli statistik tetapi saya mencoba melakukan analisis sendiri, walaupun saya sering menemui kesulitan. Saya melakukan analisis pertama saya sekitar 2 tahun yang lalu. Nilai P dimasukkan di mana-mana dalam analisis saya (saya hanya melakukan apa yang dilakukan peneliti lain) dari tabel deskriptif hingga analisis regresi. Sedikit demi sedikit, ahli statistik yang bekerja di apartemen saya membujuk saya untuk melewati semua (!) Nilai p, kecuali dari tempat saya benar-benar memiliki hipotesis.
Masalahnya adalah bahwa nilai p berlimpah dalam publikasi penelitian medis. Adalah konvensional untuk memasukkan nilai p pada baris yang terlalu banyak; data deskriptif rata-rata, median atau apa pun yang biasanya sejalan dengan nilai-nilai p (uji-siswa, Chi-square dll).
Saya baru-baru ini mengirimkan makalah ke jurnal, dan saya menolak (dengan sopan) untuk menambahkan nilai p ke tabel deskriptif "baseline" saya. Makalah itu akhirnya ditolak.
Untuk mencontohkan, lihat gambar di bawah ini; itu adalah tabel deskriptif dari artikel terbaru yang diterbitkan dalam jurnal kedokteran dalam negeri yang disegani .:
Ahli statistik sebagian besar (jika tidak selalu) terlibat dalam peninjauan naskah-naskah ini. Jadi orang awam seperti saya berharap untuk tidak menemukan nilai p di mana tidak ada hipotesis. Tetapi mereka berlimpah, tetapi alasan untuk ini tetap sulit bagi saya. Saya merasa sulit untuk percaya bahwa itu adalah ketidaktahuan.
Saya menyadari bahwa ini adalah pertanyaan statistik batas. Tapi saya mencari alasan di balik fenomena ini.
sumber
Jawaban:
Jelas saya tidak perlu memberi tahu Anda apa nilai-p, atau mengapa terlalu mengandalkan mereka adalah masalah; Anda tampaknya sudah memahami hal-hal itu dengan cukup baik.
Dengan penerbitan, Anda memiliki dua tekanan yang bersaing.
Yang pertama - dan yang harus Anda dorong pada setiap kesempatan yang masuk akal - adalah melakukan apa yang masuk akal.
Yang kedua, pada akhirnya, adalah kebutuhan untuk benar-benar menerbitkan. Ada sedikit keuntungan jika tidak ada yang melihat upaya baik Anda dalam mereformasi praktik mengerikan.
Jadi, alih-alih menghindarinya sama sekali:
lakukan itu sebagai sedikit kegiatan sia-sia seperti yang bisa Anda lakukan dengan yang masih dipublikasikan
mungkin sertakan penyebutan artikel metode Alam terbaru ini [1] jika menurut Anda itu akan membantu, atau mungkin lebih baik satu atau lebih dari referensi lain. Setidaknya harus membantu membuktikan bahwa ada beberapa oposisi terhadap keutamaan nilai-p.
pertimbangkan jurnal lain, jika jurnal lain cocok
Masalah over-penggunaan p-nilai terjadi di sejumlah disiplin ilmu (ini bahkan bisa menjadi masalah ketika ada adalah beberapa hipotesis), tetapi jauh kurang umum di beberapa daripada yang lain. Beberapa disiplin memang memiliki masalah dengan p-value-itis, dan masalah yang menyebabkan akhirnya dapat menyebabkan reaksi yang agak berlebihan [2] (dan pada tingkat yang lebih kecil, [1], dan setidaknya di beberapa tempat, beberapa dari yang lain). demikian juga).
Saya pikir ada berbagai alasan untuk itu, tetapi ketergantungan yang terlalu tinggi pada nilai-p tampaknya mendapatkan momentumnya sendiri - ada sesuatu tentang mengatakan "signifikan" dan menolak nol yang tampaknya orang anggap sangat menarik; berbagai disiplin ilmu (mis. lihat [3] [4] [5] [6] [7] [8] [9] [10] [11]) telah (dengan berbagai tingkat keberhasilan) telah berjuang melawan masalah ketergantungan berlebihan pada nilai-p (terutama = 0,05) selama bertahun-tahun, dan telah membuat berbagai macam saran - tidak semuanya saya setujui, tetapi saya memasukkan berbagai pandangan untuk memberikan beberapa pengertian tentang berbagai hal yang berbeda yang orang katakan .α
Beberapa dari mereka menganjurkan fokus pada interval kepercayaan, beberapa menganjurkan melihat ukuran efek, beberapa menganjurkan metode Bayesian, beberapa nilai-p yang lebih kecil, beberapa hanya pada menghindari menggunakan nilai-p dalam cara-cara tertentu, dan sebagainya. Ada banyak pandangan berbeda tentang apa yang harus dilakukan, tetapi di antara mereka ada banyak materi tentang masalah dengan mengandalkan nilai-p, setidaknya cara itu biasanya dilakukan.
Lihat referensi-referensi itu untuk banyak referensi selanjutnya. Ini hanya contoh - banyak referensi lagi dapat ditemukan. Beberapa penulis memberikan alasan mengapa mereka berpikir nilai-p adalah lazim.
Beberapa referensi ini mungkin berguna jika Anda ingin berdebat dengan editor.
[1] Halsey LG, Curran-Everett D., Vowler SL & Drummond GB (2015),
"Nilai P berubah-ubah menghasilkan hasil yang tidak dapat direproduksi,"
Metode Alam 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / jurnal / v12 / n3 / abs / nmeth.3288.html
[2] David Trafimow, D. dan Marks, M. (2015),
Editorial,
Psikologi Sosial Dasar dan Terapan , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991
[3] Cohen, J. (1990),
Hal-hal yang telah saya pelajari (sejauh ini),
American Psychologist , 45 (12), 1304–1312.
[4] Cohen, J. (1994),
Bumi itu bulat (p <.05),
American Psychologist , 49 (12), 997-1003.
[5] Valen E. Johnson (2013),
Revisi standar untuk bukti statistik PNAS , vol. 110, tidak. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf
[6] Kruschke JK (2010),
Apa yang harus dipercaya: Metode Bayesian untuk analisis data,
Tren dalam ilmu kognitif 14 (7), 293-300
[7] Ioannidis, J. (2005)
Mengapa Temuan Penelitian Paling Diterbitkan Salah,
PLoS Med. Agustus; 2 (8): e124.
doi: 10.1371 / jurnal.pmed.0020124
[8] Gelman, A. (2013), Nilai P dan Praktik Statistik,
Epidemiologi Vol. 24 , No. 1, Januari, 69-72
[9] Gelman, A. (2013),
"Masalah dengan nilai-p adalah bagaimana mereka digunakan",
(Diskusi "Dalam membela nilai-P," oleh Paul Murtaugh, untuk Ekologi ) tidak diterbitkan
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf
[10] Nuzzo R. (2014),
Kesalahan statistik: Nilai P, 'standar emas' validitas statistik, tidak dapat diandalkan seperti yang diasumsikan oleh banyak ilmuwan,
Berita dan Komentar,
Alam , Vol. 506 (13), 150-152
[11] Wagenmakers E, (2007)
Solusi praktis untuk masalah meresapi nilai p,
Psychonomic Bulletin & Review 14 (5), 779-804
sumber
Nilai-p, atau lebih umum, pengujian signifikansi nol-hipotesis (NHST), perlahan-lahan memiliki nilai yang semakin sedikit. Sedemikian rupa sehingga sudah mulai dilarang di jurnal.
Kebanyakan orang tidak mengerti apa nilai p sebenarnya memberitahu kita dan mengapa itu memberitahu kita ini, meskipun itu digunakan di mana-mana.
sumber
Greenwald et al. (1996) berusaha untuk menangani pertanyaan ini mengenai psikologi. Mengenai juga menerapkan NHST pada perbedaan-perbedaan dasar, mungkin para editor akan (benar atau salah) memutuskan bahwa perbedaan-perbedaan dasar "tidak-penting" tidak dapat menjelaskan hasil, sementara yang "signifikan" dapat menjelaskan hasilnya. Ini mirip dengan "Alasan 1" yang ditawarkan oleh Greenwald et al. :
Ukuran efek dan nilai p: Apa yang harus dilaporkan dan apa yang harus direplikasi? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS, DAN DONALD GUTHRIE. Psikofisiologi, 33 (1996). 175-183. Cambridge University Press. Dicetak di AS. Hak Cipta O Masyarakat 1996 untuk Penelitian Psikofisiologis
sumber
Nilai-P memberikan informasi tentang perbedaan antara dua kelompok hasil ("perlakuan" vs "kontrol", "A" vs "B", dll.) Yang diambil sampel dari dua populasi. Sifat perbedaan diformalkan dalam pernyataan hipotesis - misalnya "rata-rata A lebih besar dari rata-rata B". Nilai p yang rendah menunjukkan bahwa perbedaan itu bukan karena variasi acak, sedangkan nilai p yang tinggi menunjukkan bahwa perbedaan dalam dua sampel tidak dapat dibedakan dari perbedaan yang mungkin timbul hanya dari variasi acak. Apa yang "rendah" atau "tinggi" untuk nilai-p secara historis lebih merupakan masalah konvensi dan selera daripada dibangun dengan logika atau analisis bukti yang teliti.
Prasyarat untuk menggunakan nilai-p adalah bahwa dua kelompok hasil benar-benar sebanding, yaitu bahwa satu-satunya sumber perbedaan di antara mereka terkait dengan variabel yang Anda evaluasi. Sebagai contoh berlebihan, bayangkan Anda memiliki statistik tentang dua penyakit dalam dua periode waktu - A: kematian akibat kolera di antara pria di penjara Inggris 1920-1930, dan B: infeksi oleh malaria di Nigeria 1960-1970. Menghitung nilai-p dari dua set data ini akan menjadi agak absurd. Sekarang, jika A: kematian akibat kolera di antara pria di penjara Inggris yang tidak diobati vs B: kematian akibat kolera di antara pria di penjara Inggris yang dirawat dengan hidrasi ulang, maka Anda memiliki dasar untuk hipotesis statistik yang solid.
Paling sering hal ini dicapai melalui desain eksperimen yang cermat, atau desain survei yang cermat, atau pengumpulan data historis yang cermat, dll. Juga, perbedaan antara dua hasil harus diformalkan menjadi pernyataan hipotesis yang melibatkan statistik sampel - seringkali sampel berarti, tetapi bisa juga berarti menjadi varians sampel, atau statistik sampel lainnya. Juga dimungkinkan untuk membuat pernyataan hipotesis yang membandingkan dua distribusi sampel secara keseluruhan, menggunakan dominasi stokastik. Ini jarang terjadi.
Kontroversi mengenai nilai-p berpusat pada "apa yang benar-benar signifikan" untuk penelitian? Di sinilah ukuran efek masuk. Pada dasarnya, ukuran efek adalah besarnya perbedaan antara kedua kelompok. Dimungkinkan untuk memiliki signifikansi statistik yang tinggi (nilai-p rendah -> bukan karena variasi acak) tetapi juga ukuran efek yang rendah (sangat sedikit perbedaan dalam besarnya). Ketika ukuran efek sangat besar, maka memungkinkan nilai-p agak tinggi mungkin OK.
Sebagian besar disiplin ilmu sekarang bergerak sangat kuat ke arah pelaporan ukuran efek, dan mengurangi atau meminimalkan peran nilai-p. Mereka juga mendorong statistik yang lebih deskriptif tentang distribusi sampel. Beberapa pendekatan, termasuk Bayesian Statistics, menghilangkan semua nilai-p bersama-sama.
Jawaban saya ringkas dan disederhanakan. Ada banyak artikel tentang topik ini yang dapat Anda baca untuk detail lebih lanjut, pembenaran, dan spesifik, termasuk ini:
sumber
Secara implisit, OP mengatakan bahwa dalam Tabel spesifik yang ia sajikan, tidak ada hipotesis yang menyertai nilai-p yang dilaporkan. Hanya untuk menghilangkan kebingungan kecil ini, tentu saja ada hipotesis nol, tetapi mereka agak ... secara tidak langsung disebutkan (untuk ekonomi ruang, saya kira).
"Nilai-p" adalah probabilitas bersyarat, katakanlah, untuk tes "ekor kanan",
Jadi nilai-p bahkan tidak dapat dihitung jika tidak ada hipotesis nol , dan setiap kali kita melihat nilai-p dilaporkan, di suatu tempat ada hipotesis nol yang mengintai.
Dalam Tabel disajikan dalam pertanyaan yang kita baca
Hipotesis nol adalah "tersembunyi" dalam frasa ini: itu adalah "Tidak ada perbedaan antara WHR tertile", (apa pun "Wile R" adalah) dinyatakan dalam bentuk matematika yang di sini tampaknya ada perbedaan dua besaran yang diset sama dengan nol.
sumber
Saya jadi penasaran dan membaca koran yang OP berikan sebagai contoh: Obesitas perut meningkatkan risiko patah tulang pinggul . Saya bukan peneliti medis dan biasanya tidak membaca makalah obat-obatan.
Saya terkejut melihat bahwa HANYA tempat di mana tulisan ini digunakanhal -nilai adalah keterangan Tabel 1 yang OP direproduksi dalam tubuh pertanyaan.
Bagi saya itu tidak terlihat seperti "kelimpahan" darihal -nilai sama sekali! Saya terbiasa dengan makalah ilmu saraf, di mana kelompok-kelompok subyek yang berbeda (manusia, tikus, lalat, neuron, sampel jaringan, dll.) Diperlakukan secara berbeda atau diukur dalam kondisi yang berbeda, dan kertas biasanya berputar di sekitar perbedaan antara kelompok. Perbedaan-perbedaan ini selalu dinilai denganhal -nilai, sehingga sebuah makalah dapat memiliki puluhan dan lusinan dari mereka dilaporkan dalam teks utama. Kadang-kadang, ini benar-benar terlihat seperti "kelimpahan". Pendekatan ini sering (kadang-kadang benar dan kadang-kadang salah) dikritik karena berbagai alasan, lihat jawaban oleh @Glen_b (+1) dan tautan lebih lanjut.
Namun, makalah ini tidak melakukan hal seperti itu dan hanya melaporkanhal -nilai pada dasarnya dalam pendahuluan, ketika karakteristik yang berbeda dari kelompok dilaporkan. Saya tidak mengerti apa ituhal -Nilai sedang dilakukan di sana, dan jadi ya, saya setuju bahwa mereka tidak pada tempatnya. Namun, saya juga tidak mengerti apa yang dilakukan seluruh meja ini! Saya menemukan tabel ini agak membingungkan (mengapa tertiles? Mengapa tertiles dari WHR? Di mana variabel aktual yang menarik, tingkat patah tulang pinggul?) Dan tampaknya tidak digunakan untuk analisis aktual lebih jauh. Seluruh tabel ini dapat dikeluarkan dari teks tanpa banyak kerugian, bersama denganhal -nilai.
Karena saya tidak melihat kelimpahanhal -nilai dalam makalah ini, saya agak bingung dengan pertanyaannya.
Kedengarannya seolah pertanyaan itu secara spesifik merujuk pada tabel deskriptif seperti itu. Jika demikian, ini merupakan praktik aneh (tapi sebagian besar tidak berbahaya?) Dalam jurnal medis, bertahan karena tradisi.
PS By the way, analisis utama dari makalah ini (yang tidak melibatkan apa punhal -nilai) terlihat aneh bagi saya. Tujuan dari penelitian ini adalah "untuk menguji [...] hubungan antara lingkar pinggang (WC), lingkar pinggul (HC), rasio pinggang / pinggul (WHR) dan BMI dengan insiden fraktur panggul" , sambil mengendalikan berbagai kemungkinan kovariat. . Ukuran sampel sangat besar (n = 43000 ). Apa yang akan saya lakukan, adalah untuk menempatkan semua prediktor ke dalam satu model regresi dengan penalti bersih elastis, pilih parameter regularisasi melalui cross-validation, dan kemudian lihat apa yang diprediksi memiliki koefisien bukan nol. Atau yang serupa. Penulis, sebaliknya, melakukan beberapa pemodelan ad hoc .
sumber
Tingkat tinjauan sejawat statistik tidak setinggi yang dipikirkan orang dari pengalaman saya. Untuk semua makalah terapan yang telah saya kerjakan, semua komentar statistik datang dari para ahli di bidang terapan dan bukan dari ahli statistik. Untuk jurnal "atas", meskipun ada pengawasan yang lebih besar, tidak jarang melihat hasil yang memiliki kesalahan serius. Saya pikir ini sebagian karena bidang statistik bisa sulit (seperti yang dapat dilihat oleh perbedaan pendapat di antara banyak dari para pemikir besar).
Kedua, pembaca di suatu bidang berharap untuk melihat sesuatu dengan cara tertentu. Dalam satu pengalaman baru-baru ini, saya merencanakan probabilitas dari sebuah model, tetapi ini gagal karena kolaborator saya menebak dengan benar bahwa pembacanya akan lebih nyaman dengan sebidang data mentah. Singkatnya, banyak pembaca berharap untuk melihat nilai-p bersama tabel karakteristik dasar.
Tidak terkait dengan pertanyaan langsung Anda, tetapi mungkin relevan: nilai-p digunakan di hampir setiap teks menggunakan metode frequentist atau likelihood. Para penulis sering memberikan kontribusi yang luar biasa dan sangat memikirkan statistik. Meskipun dilecehkan oleh eksperimentalis, pasti mereka mendapat tempat dalam statistik.
sumber
Saya harus sering membaca artikel medis dan saya merasa bahwa pendulum tampaknya berayun dari satu ekstrem ke yang lain, daripada tinggal di zona seimbang tengah.
Pendekatan berikut tampaknya bekerja dengan baik. Jika nilai P kecil, perbedaan yang diamati tidak mungkin terjadi secara kebetulan saja. Karena itu, kita harus melihat besarnya perbedaan dan memutuskan apakah itu signifikansi praktis. Nilai P sangat kecil terjadi dengan ukuran sampel besar bahkan dengan perbedaan sangat kecil yang mungkin tidak ada relevansi praktis.
Tidak termasuk nilai P dalam tabel data dasar mungkin tidak menguntungkan. Jadi jika dalam sebuah penelitian ada dua kelompok dengan usia rata-rata 54 dan 59 tahun, saya ingin tahu apakah perbedaan ini bisa terjadi secara kebetulan saja. Jika P kecil maka saya pikir apakah perbedaan 5 tahun dalam 2 kelompok dapat mempengaruhi hasil penelitian. Jika P tidak kecil, saya tidak harus menjawab pertanyaan ini.
Masalah terjadi jika seseorang hanya mengandalkan nilai P dan tidak memeriksa besarnya perbedaan (misalnya, persen perubahan sederhana). Beberapa merasa bahwa nilai-nilai P harus dihilangkan secara total sehingga hanya perbedaan yang tersisa dan terlihat. Solusi yang seimbang adalah dengan menekankan pada mengevaluasi keduanya dan tidak hanya membuang nilai P, yang memiliki makna terbatas tetapi 'signifikan'. Ukuran efek juga cenderung berkorelasi erat dengan nilai P (seperti interval kepercayaan) dan juga tidak mungkin untuk sepenuhnya memindahkan nilai P dari lanskap statistik. Seperti disebutkan dalam artikel berikut, ada banyak manfaat dari pengujian hipotesis nol karena itu tetap populer:
ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS, DAN DONALD GUTHRIE Ukuran efek dan nilai p: Apa yang harus dilaporkan dan apa yang harus direplikasi? Psikofisiologi, 33 (1996). 175-183.
sumber