Kelimpahan nilai P tanpa adanya hipotesis

28

Saya ke epidemiologi. Saya bukan ahli statistik tetapi saya mencoba melakukan analisis sendiri, walaupun saya sering menemui kesulitan. Saya melakukan analisis pertama saya sekitar 2 tahun yang lalu. Nilai P dimasukkan di mana-mana dalam analisis saya (saya hanya melakukan apa yang dilakukan peneliti lain) dari tabel deskriptif hingga analisis regresi. Sedikit demi sedikit, ahli statistik yang bekerja di apartemen saya membujuk saya untuk melewati semua (!) Nilai p, kecuali dari tempat saya benar-benar memiliki hipotesis.

Masalahnya adalah bahwa nilai p berlimpah dalam publikasi penelitian medis. Adalah konvensional untuk memasukkan nilai p pada baris yang terlalu banyak; data deskriptif rata-rata, median atau apa pun yang biasanya sejalan dengan nilai-nilai p (uji-siswa, Chi-square dll).

Saya baru-baru ini mengirimkan makalah ke jurnal, dan saya menolak (dengan sopan) untuk menambahkan nilai p ke tabel deskriptif "baseline" saya. Makalah itu akhirnya ditolak.

Untuk mencontohkan, lihat gambar di bawah ini; itu adalah tabel deskriptif dari artikel terbaru yang diterbitkan dalam jurnal kedokteran dalam negeri yang disegani .: masukkan deskripsi gambar di sini

Ahli statistik sebagian besar (jika tidak selalu) terlibat dalam peninjauan naskah-naskah ini. Jadi orang awam seperti saya berharap untuk tidak menemukan nilai p di mana tidak ada hipotesis. Tetapi mereka berlimpah, tetapi alasan untuk ini tetap sulit bagi saya. Saya merasa sulit untuk percaya bahwa itu adalah ketidaktahuan.

Saya menyadari bahwa ini adalah pertanyaan statistik batas. Tapi saya mencari alasan di balik fenomena ini.

Adam Robinsson
sumber
12
Nilai p tanpa hipotesis secara inheren cacat. Apa artinya p-value bahkan ketika Anda tidak memiliki hipotesis?
jameselmore
3
Bisakah Anda memberikan beberapa contoh orang yang menggunakan nilai p tanpa hipotesis? Ini tidak jelas.
Amuba kata Reinstate Monica
4
@amoeba "" Masalahnya adalah bahwa nilai p ada di mana-mana di setiap jurnal medis. Itu konvensional untuk memasukkan nilai p pada setiap baris di mana ada rata-rata, median atau proporsi yang dijelaskan. "" Mereka cenderung tes Fisher sederhana atau tes chi-square untuk perbedaan, menanyakan apakah ada baris tabel ringkasan memiliki perbedaan signifikan . Hipotesis tersirat adalah bahwa setiap baris penting.
Karl
2
Saya menduga kekuatan utama adalah bahwa nilai-p memberikan kesan menyesatkan tentang finalitas terhadap klaim yang diberikan. Para penerbit jurnal-jurnal ini harus menyukai ini karena itu berarti mereka memiliki informasi yang akan berharga untuk masa mendatang. Budaya bersamaan dari tidak mendanai atau mengusulkan studi replikasi juga membantu meminimalkan kehadiran hasil yang kontroversial. Saya bertanya-tanya apa yang akan terjadi jika orang pada akhirnya menyadari informasi yang mereka miliki sebagian besar terdiri dari "aktivitas sia-sia" (istilah @ glen_b). Bahkan jika ada hal-hal berguna yang dicampur ... heuristik meminta Anda untuk menghindarinya.
Livid
1
[at] jameselmore: Saya mengajukan pertanyaan yang sama; tidak masuk akal tetapi diterapkan setiap hari. [at] amoeba: Saya secara acak memilih salah satu jurnal yang saya baca, tekan artikel terbaru yang diterbitkan dan temukan ini: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: tepatnya, terima kasih. @Momo: Saya telah melakukan upaya sekarang untuk meningkatkan rumusan pertanyaan. Saya pikir ini adalah pertanyaan penting dan saya menghargai saran Anda. [at] Livid: terima kasih atas komentar ini. Memang banyak peneliti mungkin telah salah memahami seluruh poin dari nilai p.
Adam Robinsson

Jawaban:

29

Jelas saya tidak perlu memberi tahu Anda apa nilai-p, atau mengapa terlalu mengandalkan mereka adalah masalah; Anda tampaknya sudah memahami hal-hal itu dengan cukup baik.

Dengan penerbitan, Anda memiliki dua tekanan yang bersaing.

Yang pertama - dan yang harus Anda dorong pada setiap kesempatan yang masuk akal - adalah melakukan apa yang masuk akal.

Yang kedua, pada akhirnya, adalah kebutuhan untuk benar-benar menerbitkan. Ada sedikit keuntungan jika tidak ada yang melihat upaya baik Anda dalam mereformasi praktik mengerikan.

Jadi, alih-alih menghindarinya sama sekali:

  • lakukan itu sebagai sedikit kegiatan sia-sia seperti yang bisa Anda lakukan dengan yang masih dipublikasikan

  • mungkin sertakan penyebutan artikel metode Alam terbaru ini [1] jika menurut Anda itu akan membantu, atau mungkin lebih baik satu atau lebih dari referensi lain. Setidaknya harus membantu membuktikan bahwa ada beberapa oposisi terhadap keutamaan nilai-p.

  • pertimbangkan jurnal lain, jika jurnal lain cocok

Apakah ini sama dalam disiplin ilmu lain?

Masalah over-penggunaan p-nilai terjadi di sejumlah disiplin ilmu (ini bahkan bisa menjadi masalah ketika ada adalah beberapa hipotesis), tetapi jauh kurang umum di beberapa daripada yang lain. Beberapa disiplin memang memiliki masalah dengan p-value-itis, dan masalah yang menyebabkan akhirnya dapat menyebabkan reaksi yang agak berlebihan [2] (dan pada tingkat yang lebih kecil, [1], dan setidaknya di beberapa tempat, beberapa dari yang lain). demikian juga).

Saya pikir ada berbagai alasan untuk itu, tetapi ketergantungan yang terlalu tinggi pada nilai-p tampaknya mendapatkan momentumnya sendiri - ada sesuatu tentang mengatakan "signifikan" dan menolak nol yang tampaknya orang anggap sangat menarik; berbagai disiplin ilmu (mis. lihat [3] [4] [5] [6] [7] [8] [9] [10] [11]) telah (dengan berbagai tingkat keberhasilan) telah berjuang melawan masalah ketergantungan berlebihan pada nilai-p (terutama = 0,05) selama bertahun-tahun, dan telah membuat berbagai macam saran - tidak semuanya saya setujui, tetapi saya memasukkan berbagai pandangan untuk memberikan beberapa pengertian tentang berbagai hal yang berbeda yang orang katakan .α

Beberapa dari mereka menganjurkan fokus pada interval kepercayaan, beberapa menganjurkan melihat ukuran efek, beberapa menganjurkan metode Bayesian, beberapa nilai-p yang lebih kecil, beberapa hanya pada menghindari menggunakan nilai-p dalam cara-cara tertentu, dan sebagainya. Ada banyak pandangan berbeda tentang apa yang harus dilakukan, tetapi di antara mereka ada banyak materi tentang masalah dengan mengandalkan nilai-p, setidaknya cara itu biasanya dilakukan.

Lihat referensi-referensi itu untuk banyak referensi selanjutnya. Ini hanya contoh - banyak referensi lagi dapat ditemukan. Beberapa penulis memberikan alasan mengapa mereka berpikir nilai-p adalah lazim.

Beberapa referensi ini mungkin berguna jika Anda ingin berdebat dengan editor.

[1] Halsey LG, Curran-Everett D., Vowler SL & Drummond GB (2015),
"Nilai P berubah-ubah menghasilkan hasil yang tidak dapat direproduksi,"
Metode Alam 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / jurnal / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow, D. dan Marks, M. (2015),
Editorial,
Psikologi Sosial Dasar dan Terapan , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Cohen, J. (1990),
Hal-hal yang telah saya pelajari (sejauh ini),
American Psychologist , 45 (12), 1304–1312.

[4] Cohen, J. (1994),
Bumi itu bulat (p <.05),
American Psychologist , 49 (12), 997-1003.

[5] Valen E. Johnson (2013),
Revisi standar untuk bukti statistik PNAS , vol. 110, tidak. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
Apa yang harus dipercaya: Metode Bayesian untuk analisis data,
Tren dalam ilmu kognitif 14 (7), 293-300

[7] Ioannidis, J. (2005)
Mengapa Temuan Penelitian Paling Diterbitkan Salah,
PLoS Med. Agustus; 2 (8): e124.
doi: 10.1371 / jurnal.pmed.0020124

[8] Gelman, A. (2013), Nilai P dan Praktik Statistik,
Epidemiologi Vol. 24 , No. 1, Januari, 69-72

[9] Gelman, A. (2013),
"Masalah dengan nilai-p adalah bagaimana mereka digunakan",
(Diskusi "Dalam membela nilai-P," oleh Paul Murtaugh, untuk Ekologi ) tidak diterbitkan
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
Kesalahan statistik: Nilai P, 'standar emas' validitas statistik, tidak dapat diandalkan seperti yang diasumsikan oleh banyak ilmuwan,
Berita dan Komentar,
Alam , Vol. 506 (13), 150-152

[11] Wagenmakers E, (2007)
Solusi praktis untuk masalah meresapi nilai p,
Psychonomic Bulletin & Review 14 (5), 779-804

Glen_b -Reinstate Monica
sumber
7
+1. Saya membaca makalah Nature Methods ini [1] satu minggu lagi dan saya tidak yakin saya sangat menyukainya. Mereka pada dasarnya berpendapat bahwa nilai-p dapat sangat bervariasi dalam tes daya rendah (lihat juga "tarian nilai-p" di youtube) - sesuatu yang tentu saja benar dan yang perlu ditekankan. Mereka menyimpulkan bahwa nilai-p adalah "buruk" (judulnya terdengar sangat keras) dan bahwa orang harus menggunakan interval kepercayaan yang "baik". Tapi tentu saja interval kepercayaan juga sangat bervariasi dalam daya rendah! Situasi pada Gambar 6 (kiri) mereka tidak terlihat jauh lebih baik bagi saya daripada pada Gambar 2.
amoeba berkata Reinstate Monica
2
@amoeba Saya tidak akan mengatakan saya tidak setuju dengan Anda - ada cukup banyak di sana saya tidak setuju dengan; namun ada beberapa poin di sana yang mungkin berguna bagi OP. Sebenarnya, Anda sudah mengingatkan saya pada perubahan yang ingin saya buat tetapi lupa.
Glen_b -Reinstate Monica
3
Ya, saya setuju dengan kegunaan potensial - terutama karena Metode Alam cukup terhormat sehingga orang mungkin dapat diyakinkan oleh "otoritas" -nya. Saya benar-benar ingin memperingatkan OP agar tidak menganggap segala sesuatu di sana begitu saja (matematika mereka baik-baik saja, saya berbicara tentang kesimpulan / interpretasi di sini).
Amuba mengatakan Reinstate Monica
1
Juga menarik dalam konteks ini adalah Wilkinson dan Gugus Tugas tentang Statistik Inferensi, Metode Statistik dalam Jurnal Psikologi, American Psychologist , Vol. 54, No. 8, 594-604, 1999.
A. Donda
Glen_b, saya memposting pertanyaan tentang salah satu klaim orang asing di kertas "Fickle P": stats.stackexchange.com/questions/250269 - akan sangat menghargai wawasan Anda.
Amoeba berkata Reinstate Monica
10

Nilai-p, atau lebih umum, pengujian signifikansi nol-hipotesis (NHST), perlahan-lahan memiliki nilai yang semakin sedikit. Sedemikian rupa sehingga sudah mulai dilarang di jurnal.

Kebanyakan orang tidak mengerti apa nilai p sebenarnya memberitahu kita dan mengapa itu memberitahu kita ini, meskipun itu digunakan di mana-mana.

P(Data|H0)P(H0|Data)

H0H0

bertingkat
sumber
1
Saya akan menambahkan bahwa P (H0 | data) hanya bermakna jika H0 bermakna. Studi perlu dirancang dan dilaporkan dengan cara mengesampingkan penjelasan tidak menarik lainnya untuk hasil (bias, putus sekolah, perbedaan dasar) di luar kebetulan. Juga, bahkan RCT buta sempurna dengan ukuran efek substansial hanya memberi tahu Anda bahwa sesuatu yang menarik diukur. Mencari tahu jika Anda mengukur hal yang benar-benar Anda perhatikan adalah masalah lain yang sering ditemukan bersama dengan obsesi nilai-p.
Livid
8

Apakah ini sama dalam disiplin ilmu lain? Apa alasan obsesi dengan nilai p?

Greenwald et al. (1996) berusaha untuk menangani pertanyaan ini mengenai psikologi. Mengenai juga menerapkan NHST pada perbedaan-perbedaan dasar, mungkin para editor akan (benar atau salah) memutuskan bahwa perbedaan-perbedaan dasar "tidak-penting" tidak dapat menjelaskan hasil, sementara yang "signifikan" dapat menjelaskan hasilnya. Ini mirip dengan "Alasan 1" yang ditawarkan oleh Greenwald et al. :

Mengapa NHT Tetap Populer?

"Mengapa NHT tidak menyerah pada kritik? Karena tidak ada jawaban yang lebih baik, itu tergoda untuk menghargai ketekunan NHT untuk kurangnya karakter ilmuwan perilaku. Keengganan para ilmuwan perilaku untuk meninggalkan kesenangan bersalah mendapatkan kemungkinan penolakan hipotesis nol palsu mungkin menjadi seperti keengganan peminum untuk meninggalkan kebiasaan koktail sebelum makan malam ... "

Alasan I: HT Memberikan Hasil Dikotomis

"Karena adopsi luas dari konvensi yang p <0,05 diterjemahkan menjadi" signifikan secara statistik, "NHT dapat digunakan untuk menghasilkan jawaban dikotomis (menolak atau tidak menolak) untuk pertanyaan tentang hipotesis nol. Ini mungkin sering dianggap sebagai jawaban yang berguna untuk pertanyaan teoritis yang dinyatakan dalam arah prediksi daripada dalam hal nilai yang diharapkan dari suatu parameter ... "

Alasan 2: Nilai p sebagai Terjemahan Bahasa Biasa yang Berarti untuk Statistik Uji

"Tidak seperti apa pun yang dapat dirasakan secara langsung dari nilai t, F, atau r (dengan df terkait), ukuran kejutan nilai p hanya ditangkap oleh jumlah nol berturut-turut di sebelah kanan titik desimalnya ..."

Alasan 3: Nilai p Memberikan Ukuran Keyakinan "dalam Replikabilitas Null Hipotesis Tolak

"[U] tidak seperti ukuran efek (atau interval kepercayaan), nilai ap yang dihasilkan dari NHT secara monoton terkait dengan perkiraan replikasi penemuan yang tidak nol. Dalam pernyataan ini, replikabilitas (yang didefinisikan lebih formal di bawah) dimaksudkan hanya dalam pengertian NHT yang mengulangi kesimpulan menolak-bukan-menolak dan tidak dalam hal perkiraan kedekatan antara perkiraan titik atau interval. "

Ukuran efek dan nilai p: Apa yang harus dilaporkan dan apa yang harus direplikasi? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS, DAN DONALD GUTHRIE. Psikofisiologi, 33 (1996). 175-183. Cambridge University Press. Dicetak di AS. Hak Cipta O Masyarakat 1996 untuk Penelitian Psikofisiologis

Marah
sumber
terima kasih atas komentar penting ini, yang akan saya gunakan untuk berdebat dengan pengulas lain kali.
Adam Robinsson
6

Nilai-P memberikan informasi tentang perbedaan antara dua kelompok hasil ("perlakuan" vs "kontrol", "A" vs "B", dll.) Yang diambil sampel dari dua populasi. Sifat perbedaan diformalkan dalam pernyataan hipotesis - misalnya "rata-rata A lebih besar dari rata-rata B". Nilai p yang rendah menunjukkan bahwa perbedaan itu bukan karena variasi acak, sedangkan nilai p yang tinggi menunjukkan bahwa perbedaan dalam dua sampel tidak dapat dibedakan dari perbedaan yang mungkin timbul hanya dari variasi acak. Apa yang "rendah" atau "tinggi" untuk nilai-p secara historis lebih merupakan masalah konvensi dan selera daripada dibangun dengan logika atau analisis bukti yang teliti.

Prasyarat untuk menggunakan nilai-p adalah bahwa dua kelompok hasil benar-benar sebanding, yaitu bahwa satu-satunya sumber perbedaan di antara mereka terkait dengan variabel yang Anda evaluasi. Sebagai contoh berlebihan, bayangkan Anda memiliki statistik tentang dua penyakit dalam dua periode waktu - A: kematian akibat kolera di antara pria di penjara Inggris 1920-1930, dan B: infeksi oleh malaria di Nigeria 1960-1970. Menghitung nilai-p dari dua set data ini akan menjadi agak absurd. Sekarang, jika A: kematian akibat kolera di antara pria di penjara Inggris yang tidak diobati vs B: kematian akibat kolera di antara pria di penjara Inggris yang dirawat dengan hidrasi ulang, maka Anda memiliki dasar untuk hipotesis statistik yang solid.

Paling sering hal ini dicapai melalui desain eksperimen yang cermat, atau desain survei yang cermat, atau pengumpulan data historis yang cermat, dll. Juga, perbedaan antara dua hasil harus diformalkan menjadi pernyataan hipotesis yang melibatkan statistik sampel - seringkali sampel berarti, tetapi bisa juga berarti menjadi varians sampel, atau statistik sampel lainnya. Juga dimungkinkan untuk membuat pernyataan hipotesis yang membandingkan dua distribusi sampel secara keseluruhan, menggunakan dominasi stokastik. Ini jarang terjadi.

Kontroversi mengenai nilai-p berpusat pada "apa yang benar-benar signifikan" untuk penelitian? Di sinilah ukuran efek masuk. Pada dasarnya, ukuran efek adalah besarnya perbedaan antara kedua kelompok. Dimungkinkan untuk memiliki signifikansi statistik yang tinggi (nilai-p rendah -> bukan karena variasi acak) tetapi juga ukuran efek yang rendah (sangat sedikit perbedaan dalam besarnya). Ketika ukuran efek sangat besar, maka memungkinkan nilai-p agak tinggi mungkin OK.

Sebagian besar disiplin ilmu sekarang bergerak sangat kuat ke arah pelaporan ukuran efek, dan mengurangi atau meminimalkan peran nilai-p. Mereka juga mendorong statistik yang lebih deskriptif tentang distribusi sampel. Beberapa pendekatan, termasuk Bayesian Statistics, menghilangkan semua nilai-p bersama-sama.


Jawaban saya ringkas dan disederhanakan. Ada banyak artikel tentang topik ini yang dapat Anda baca untuk detail lebih lanjut, pembenaran, dan spesifik, termasuk ini:

MrMeritology
sumber
@MerMeritology terima kasih telah memberikan referensi penting ini. Saya akan membacanya ASAP!
Adam Robinsson
6

"Jadi orang awam seperti saya berharap untuk tidak menemukan nilai p di mana tidak ada hipotesis."

Secara implisit, OP mengatakan bahwa dalam Tabel spesifik yang ia sajikan, tidak ada hipotesis yang menyertai nilai-p yang dilaporkan. Hanya untuk menghilangkan kebingungan kecil ini, tentu saja ada hipotesis nol, tetapi mereka agak ... secara tidak langsung disebutkan (untuk ekonomi ruang, saya kira).

"Nilai-p" adalah probabilitas bersyarat, katakanlah, untuk tes "ekor kanan",

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

TFT|H0(tH0)TH0t(S)TTH0TH0H0

Jadi nilai-p bahkan tidak dapat dihitung jika tidak ada hipotesis nol , dan setiap kali kita melihat nilai-p dilaporkan, di suatu tempat ada hipotesis nol yang mengintai.

Dalam Tabel disajikan dalam pertanyaan yang kita baca

"Semua tes untuk perbedaan di seluruh WHR tertile ..."

Hipotesis nol adalah "tersembunyi" dalam frasa ini: itu adalah "Tidak ada perbedaan antara WHR tertile", (apa pun "Wile R" adalah) dinyatakan dalam bentuk matematika yang di sini tampaknya ada perbedaan dua besaran yang diset sama dengan nol.

Alecos Papadopoulos
sumber
Saya setuju mungkin ada hipotesis di balik analisis ini. Namun, mereka yang menguraikan pedoman untuk makalah penelitian (misalnya pernyataan STROBE) harus mengakui kelimpahan nilai p. Saya pikir nilai p harus dicadangkan untuk hipotesis utama sebuah makalah (yang jarang lebih dari satu). Namun demikian, saya tidak bisa mengatakan saya tidak setuju dengan Anda =)
Adam Robinsson
1
@AdamRobinsson Hmmm ... Saya tidak begitu yakin. Pendekatan "pendiam" seperti itu, akan mengembang (bahkan lebih) pentingnya tes p-value untuk mencapai kesimpulan. Bagi saya, itu hanya satu hasil lagi yang harus digabungkan dengan banyak aspek, hasil, informasi di luar sampel, logika, dll. Di sisi lain, jika nilai-p tersebar di semua tempat, itu adalah lebih mudah untuk menyadari bahwa mereka bukanlah kriteria yang pasti untuk mencapai kesimpulan.
Alecos Papadopoulos
Alecos saya membaca sesuatu yang berbeda dalam tabel, yang mengacu pada WHR (yaitu rasio pinggang-pinggul) tertil daripada WRT, sedangkan tertil adalah nilai yang membagi distribusi menjadi 3 bagian dalam arti yang sama bahwa kuartil adalah nilai yang dibagi menjadi 4 bagian dan desil ke sepuluh bagian.
Glen_b -Reinstate Monica
@ Glen_b Terima kasih, itu hanya salah ketik dari bagian saya. Memperbaikinya.
Alecos Papadopoulos
2
Lihat, misalnya, di sini . Tapi mungkin tidak di sini .
Glen_b -Reinstate Monica
2

Saya jadi penasaran dan membaca koran yang OP berikan sebagai contoh: Obesitas perut meningkatkan risiko patah tulang pinggul . Saya bukan peneliti medis dan biasanya tidak membaca makalah obat-obatan.

Saya terkejut melihat bahwa HANYA tempat di mana tulisan ini digunakan hal-nilai adalah keterangan Tabel 1 yang OP direproduksi dalam tubuh pertanyaan.

Bagi saya itu tidak terlihat seperti "kelimpahan" dari hal-nilai sama sekali! Saya terbiasa dengan makalah ilmu saraf, di mana kelompok-kelompok subyek yang berbeda (manusia, tikus, lalat, neuron, sampel jaringan, dll.) Diperlakukan secara berbeda atau diukur dalam kondisi yang berbeda, dan kertas biasanya berputar di sekitar perbedaan antara kelompok. Perbedaan-perbedaan ini selalu dinilai denganhal-nilai, sehingga sebuah makalah dapat memiliki puluhan dan lusinan dari mereka dilaporkan dalam teks utama. Kadang-kadang, ini benar-benar terlihat seperti "kelimpahan". Pendekatan ini sering (kadang-kadang benar dan kadang-kadang salah) dikritik karena berbagai alasan, lihat jawaban oleh @Glen_b (+1) dan tautan lebih lanjut.

Namun, makalah ini tidak melakukan hal seperti itu dan hanya melaporkan hal-nilai pada dasarnya dalam pendahuluan, ketika karakteristik yang berbeda dari kelompok dilaporkan. Saya tidak mengerti apa ituhal-Nilai sedang dilakukan di sana, dan jadi ya, saya setuju bahwa mereka tidak pada tempatnya. Namun, saya juga tidak mengerti apa yang dilakukan seluruh meja ini! Saya menemukan tabel ini agak membingungkan (mengapa tertiles? Mengapa tertiles dari WHR? Di mana variabel aktual yang menarik, tingkat patah tulang pinggul?) Dan tampaknya tidak digunakan untuk analisis aktual lebih jauh. Seluruh tabel ini dapat dikeluarkan dari teks tanpa banyak kerugian, bersama denganhal-nilai.

Karena saya tidak melihat kelimpahan hal-nilai dalam makalah ini, saya agak bingung dengan pertanyaannya.

Kedengarannya seolah pertanyaan itu secara spesifik merujuk pada tabel deskriptif seperti itu. Jika demikian, ini merupakan praktik aneh (tapi sebagian besar tidak berbahaya?) Dalam jurnal medis, bertahan karena tradisi.


PS By the way, analisis utama dari makalah ini (yang tidak melibatkan apa punhal-nilai) terlihat aneh bagi saya. Tujuan dari penelitian ini adalah "untuk menguji [...] hubungan antara lingkar pinggang (WC), lingkar pinggul (HC), rasio pinggang / pinggul (WHR) dan BMI dengan insiden fraktur panggul" , sambil mengendalikan berbagai kemungkinan kovariat. . Ukuran sampel sangat besar (n=43000). Apa yang akan saya lakukan, adalah untuk menempatkan semua prediktor ke dalam satu model regresi dengan penalti bersih elastis, pilih parameter regularisasi melalui cross-validation, dan kemudian lihat apa yang diprediksi memiliki koefisien bukan nol. Atau yang serupa. Penulis, sebaliknya, melakukan beberapa pemodelan ad hoc .

amuba kata Reinstate Monica
sumber
@amoeba Saya memilih artikel di rando; itu adalah artikel terbaru yang diterbitkan dalam epidemiologi dalam jurnal itu. Saya yakin jika saya telah mencari lagi, saya bisa menyediakan artikel dengan banyak nilai p yang tidak berguna. Seperti yang telah Anda perhatikan, ada p-valueitis tetapi dari Anda, dan jawaban lain di atas dan di bawah, tampaknya komunitas riset mengatasi ini.
Adam Robinsson
@ Adam, saya suka pertanyaan Anda (+1) dan jawaban Glen_b (+1), tetapi jika makalah "dipilih secara acak" ini representatif, maka sebagian besar poin yang dibuat oleh Glen_b dan sebagian besar kertas yang ditautkannya, tidak berlaku atau merujuk ke situasi dalam penelitian medis yang Anda tanyakan. Jika tidak representatif, maka tentu saja saya tidak bisa menilai.
Amoeba berkata Reinstate Monica
Saya memang mendapat bantuan luar biasa dari jawaban Anda beberapa kali. Saya melakukan penilaian berdasarkan pemahaman saya tentang masalah ini. Saya percaya semua jawaban yang diberikan berguna dan mereka secara kolektif menjawab pertanyaan itu.
Adam Robinsson
1

Tingkat tinjauan sejawat statistik tidak setinggi yang dipikirkan orang dari pengalaman saya. Untuk semua makalah terapan yang telah saya kerjakan, semua komentar statistik datang dari para ahli di bidang terapan dan bukan dari ahli statistik. Untuk jurnal "atas", meskipun ada pengawasan yang lebih besar, tidak jarang melihat hasil yang memiliki kesalahan serius. Saya pikir ini sebagian karena bidang statistik bisa sulit (seperti yang dapat dilihat oleh perbedaan pendapat di antara banyak dari para pemikir besar).

Kedua, pembaca di suatu bidang berharap untuk melihat sesuatu dengan cara tertentu. Dalam satu pengalaman baru-baru ini, saya merencanakan probabilitas dari sebuah model, tetapi ini gagal karena kolaborator saya menebak dengan benar bahwa pembacanya akan lebih nyaman dengan sebidang data mentah. Singkatnya, banyak pembaca berharap untuk melihat nilai-p bersama tabel karakteristik dasar.

Tidak terkait dengan pertanyaan langsung Anda, tetapi mungkin relevan: nilai-p digunakan di hampir setiap teks menggunakan metode frequentist atau likelihood. Para penulis sering memberikan kontribusi yang luar biasa dan sangat memikirkan statistik. Meskipun dilecehkan oleh eksperimentalis, pasti mereka mendapat tempat dalam statistik.

Juliuli
sumber
terima kasih atas komentar ini. Saya bisa mengambil pernyataan Anda lebih jauh; Saya pikir sebagian besar temuan yang dipublikasikan mengandung cacat statistik karena berbagai alasan. Atasan saya sering mengatakan "proses peninjauan didasarkan pada kata-kata pria" Cukup lucu menurut saya.
Adam Robinsson
1

Saya harus sering membaca artikel medis dan saya merasa bahwa pendulum tampaknya berayun dari satu ekstrem ke yang lain, daripada tinggal di zona seimbang tengah.

Pendekatan berikut tampaknya bekerja dengan baik. Jika nilai P kecil, perbedaan yang diamati tidak mungkin terjadi secara kebetulan saja. Karena itu, kita harus melihat besarnya perbedaan dan memutuskan apakah itu signifikansi praktis. Nilai P sangat kecil terjadi dengan ukuran sampel besar bahkan dengan perbedaan sangat kecil yang mungkin tidak ada relevansi praktis.

Tidak termasuk nilai P dalam tabel data dasar mungkin tidak menguntungkan. Jadi jika dalam sebuah penelitian ada dua kelompok dengan usia rata-rata 54 dan 59 tahun, saya ingin tahu apakah perbedaan ini bisa terjadi secara kebetulan saja. Jika P kecil maka saya pikir apakah perbedaan 5 tahun dalam 2 kelompok dapat mempengaruhi hasil penelitian. Jika P tidak kecil, saya tidak harus menjawab pertanyaan ini.

Masalah terjadi jika seseorang hanya mengandalkan nilai P dan tidak memeriksa besarnya perbedaan (misalnya, persen perubahan sederhana). Beberapa merasa bahwa nilai-nilai P harus dihilangkan secara total sehingga hanya perbedaan yang tersisa dan terlihat. Solusi yang seimbang adalah dengan menekankan pada mengevaluasi keduanya dan tidak hanya membuang nilai P, yang memiliki makna terbatas tetapi 'signifikan'. Ukuran efek juga cenderung berkorelasi erat dengan nilai P (seperti interval kepercayaan) dan juga tidak mungkin untuk sepenuhnya memindahkan nilai P dari lanskap statistik. Seperti disebutkan dalam artikel berikut, ada banyak manfaat dari pengujian hipotesis nol karena itu tetap populer:

ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS, DAN DONALD GUTHRIE Ukuran efek dan nilai p: Apa yang harus dilaporkan dan apa yang harus direplikasi? Psikofisiologi, 33 (1996). 175-183.

juga
sumber