Jurnal psikologi melarang nilai-p dan interval kepercayaan; apakah memang bijaksana untuk berhenti menggunakannya?

73

Pada 25 Februari 2015, jurnal Basic and Applied Social Psychology mengeluarkan editorial yang melarang nilai- dan interval kepercayaan dari semua makalah yang akan datang.p

Secara khusus, kata mereka (format dan penekanan adalah milikku):

  • [...] sebelum publikasi, penulis harus menghapus semua sisa-sisa NHSTP [prosedur pengujian signifikansi nol hipotesis] (nilai- , nilai- , nilai- , pernyataan tentang perbedaan 'signifikan' 'atau kekurangannya , dan seterusnya).ptF

  • Sejalan dengan bagaimana NHSTP gagal memberikan probabilitas hipotesis nol, yang diperlukan untuk memberikan alasan kuat untuk menolaknya, interval kepercayaan tidak memberikan alasan kuat untuk menyimpulkan bahwa parameter populasi yang diminati cenderung berada di dalam yang dinyatakan. selang. Oleh karena itu, interval kepercayaan juga dilarang dari BASP.

  • [...] sehubungan dengan prosedur Bayesian, kami berhak untuk membuat penilaian kasus per kasus, dan dengan demikian prosedur Bayesian tidak diharuskan atau dilarang dari BASP.

  • [...] Apakah diperlukan prosedur statistik inferensial? - Tidak [...] Namun, BASP akan membutuhkan statistik deskriptif yang kuat, termasuk ukuran efek.

Mari kita tidak membahas masalah dengan dan penyalahgunaan nilai- sini; sudah ada banyak diskusi bagus tentang CV yang dapat ditemukan dengan menelusuri tag p-value . Kritik nilai- sering kali sejalan dengan saran untuk melaporkan interval kepercayaan untuk parameter yang menarik. Misalnya, dalam jawaban yang sangat diperdebatkan ini, @gung menyarankan untuk melaporkan ukuran efek dengan interval kepercayaan di sekitar mereka. Tetapi jurnal ini juga melarang interval kepercayaan diri.pp

Apa keuntungan dan kerugian dari pendekatan seperti itu untuk menyajikan data dan hasil eksperimen yang bertentangan dengan pendekatan "tradisional" dengan nilai , interval kepercayaan, dan dikotomi yang signifikan / tidak signifikan? Reaksi terhadap larangan ini tampaknya sebagian besar negatif; jadi apa kerugiannya? American Statistics Association bahkan telah memposting komentar singkat tentang larangan ini, dengan mengatakan bahwa "kebijakan ini mungkin memiliki konsekuensi negatifnya sendiri". Apa konsekuensi negatif ini?p

Atau seperti yang disarankan @whuber, perlukah pendekatan ini diadvokasi secara umum sebagai paradigma penelitian kuantitatif? Dan jika tidak, mengapa tidak?

PS. Perhatikan bahwa pertanyaan saya bukan tentang larangan itu sendiri ; ini tentang pendekatan yang disarankan. Saya juga tidak bertanya tentang kesimpulan frequentes vs Bayesian. Editorial juga cukup negatif tentang metode Bayesian; jadi pada dasarnya tentang menggunakan statistik vs tidak menggunakan statistik sama sekali.


Diskusi lain: reddit , Gelman .

amuba
sumber
14
Ada pemetaan satu-ke-satu antara nilai-p dan interval kepercayaan dalam model regresi linier, jadi saya tidak melihat alasan kuat mengapa melarang nilai-p tetapi menjaga interval kepercayaan akan jauh lebih masuk akal. Tetapi melarang kedua nilai p dan interval kepercayaan meninggalkan celah dalam uraian hasil ... Saya ingin tahu apakah mereka mengizinkan pelaporan kesalahan standar (itu akan menjadi ukuran lain dari kelompok pemetaan satu-ke-satu yang sama).
Richard Hardy
7
Semuanya bisa disalahgunakan sehingga melarang barang-barang pada kondisi ini, yah ... aneh. Saya bukan penggemar nilai-p tetapi ini tampaknya sebagai pendekatan yang cukup naif untuk masalah ini. Satu hal yang mendorong untuk menggunakan hal-hal yang tepat, tetapi melarang hal-hal tidak terdengar seperti cara yang tepat untuk menangani masalah ...
Tim
12
Ide yang hebat. Menggunakan statistik hanya menyembunyikan sifat tidak ilmiah bidang ini.
Aksakal
4
Ini sepertinya reaksi berlebihan terhadap frustrasi atas penyalahgunaan nilai p. Saya akan jauh lebih bahagia dengan larangan penyalahgunaan nilai p daripada nilai P secara umum.
TrynnaDoStat
8
Item ke-4 dalam daftar Anda menunjukkan mereka tidak memerlukan estimasi titik, yang akan menjadi kesimpulan, tetapi ukuran efek yang dilaporkan hanya sebagai statistik deskriptif. (Namun demikian, beberapa baris di editorial, "kami mendorong penggunaan ukuran sampel yang lebih besar daripada yang khas dalam banyak penelitian psikologi, karena seiring dengan meningkatnya ukuran sampel, statistik deskriptif menjadi semakin stabil dan kesalahan pengambilan sampel menjadi kurang masalah". Saya menantikan panggilan editorial 2016 untuk penelitian untuk memformalkan gagasan stabilitas & akuntansi ini secara kuantitatif untuk efek kesalahan pengambilan sampel.)
Scortchi - Reinstate Monica

Jawaban:

23

Kalimat pertama editorial 2015 saat ini di mana OP terhubung, berbunyi:

Editorial Sosial Dasar dan Terapan (BASP) 2014 * menekankan * bahwa prosedur pengujian signifikansi nol hipotesis (NHSTP) tidak sah ...

(penekanan saya)

Dengan kata lain, bagi para editor itu adalah fakta ilmiah yang sudah terbukti bahwa "pengujian signifikansi nol hipotesis" tidak valid, dan editorial 2014 hanya menekankan demikian, sedangkan editorial 2015 saat ini hanya mengimplementasikan fakta ini.

Penyalahgunaan (bahkan jahat) NHSTP memang dibahas dan didokumentasikan dengan baik. Dan bukan tidak pernah terdengar dalam sejarah manusia bahwa "hal-hal dilarang" karena telah ditemukan bahwa setelah semua dikatakan dan dilakukan, mereka disalahgunakan lebih dari dimanfaatkan dengan baik (tetapi tidakkah kita secara statistik menguji itu?). Ini bisa menjadi solusi "terbaik kedua", untuk memotong apa yang rata-rata (statistik inferensial) telah merugi, jadi kami memperkirakan (statistik inferensial) bahwa itu akan merugikan juga di masa depan.

Tetapi semangat yang diungkapkan di balik kata-kata dari kalimat pertama di atas, menjadikan hal ini - tepatnya, sebagai pendekatan fanatik daripada keputusan berkepala dingin untuk memotong tangan yang cenderung mencuri daripada menawarkan. Jika seseorang membaca editorial satu tahun yang lebih tua yang disebutkan dalam kutipan di atas (DOI: 10.1080 / 01973533.2014.865505), orang akan melihat bahwa ini hanyalah bagian dari pengangkutan kembali kebijakan Jurnal oleh Editor baru.

Menggulung editorial, mereka menulis

... Sebaliknya, kami percaya bahwa bilah p <.05 terlalu mudah untuk dilewati dan terkadang berfungsi sebagai alasan untuk penelitian dengan kualitas lebih rendah.

Jadi tampaknya kesimpulan mereka terkait dengan disiplin mereka adalah bahwa hipotesis nol ditolak "terlalu sering", dan dugaan temuan dapat memperoleh signifikansi statistik palsu. Argumen ini tidak sama dengan diktum "tidak valid" dalam kalimat pertama.

Jadi, untuk menjawab pertanyaan itu, jelas bagi para editor jurnal, keputusan mereka tidak hanya bijaksana tetapi sudah terlambat diimplementasikan: mereka tampaknya berpikir bahwa mereka memotong bagian statistik mana yang menjadi berbahaya, menjaga bagian yang menguntungkan - mereka sepertinya tidak percaya bahwa ada sesuatu di sini yang perlu diganti dengan sesuatu yang "setara".

Secara epistemologis, ini adalah contoh di mana para sarjana ilmu sosial sebagian menarik kembali dari upaya untuk membuat disiplin mereka lebih objektif dalam metode dan hasil dengan menggunakan metode kuantitatif, karena mereka telah sampai pada kesimpulan (bagaimana?) Itu, pada akhirnya , upaya yang dibuat "lebih buruk daripada baik". Saya akan mengatakan bahwa ini adalah masalah yang sangat penting, pada prinsipnya mungkin telah terjadi, dan yang akan membutuhkan kerja bertahun-tahun untuk menunjukkannya "tanpa keraguan" dan benar-benar membantu disiplin Anda. Tetapi hanya satu atau dua editorial dan makalah yang diterbitkan kemungkinan besar (statistik inferensial) hanya memicu perang saudara.

Kalimat terakhir editorial 2015 berbunyi:

Kami berharap dan mengantisipasi bahwa pelarangan NHSTP akan berdampak meningkatkan kualitas manuskrip yang diajukan oleh penulis yang membebaskan dari struktur pemikiran NHSTP yang terbengkalai sehingga menghilangkan hambatan penting untuk berpikir kreatif. NHSTP telah mendominasi psikologi selama beberapa dekade; kami berharap bahwa dengan melembagakan larangan NHSTP pertama, kami menunjukkan bahwa psikologi tidak memerlukan penopang NHSTP, dan bahwa jurnal-jurnal lain mengikutinya.

Alecos Papadopoulos
sumber
5
Ya ... kita harus berhati-hati ketika menulis balasan dengan lidah atau sinis di situs ini: mereka mungkin (sepenuhnya) disalahpahami!
whuber
4
@ naught101 ... itu tidak akan terlalu diplomatis. Perhatikan bahwa cara NHSTP dikutuk, itu menyelamatkan para psikolog sendiri bahwa mereka telah menggunakannya dalam beberapa dekade ini. Jika itu ditulis dengan cara yang Anda usulkan, itu akan jauh lebih mirip serangan langsung terhadap rekan-rekan mereka sebagai ilmuwan. Seperti yang sekarang berdiri pada dasarnya teks ini menyiratkan bahwa psikolog penuh dengan niat baik sayangnya telah disesatkan dalam menggunakan pendekatan, oleh "seseorang", yang menyalahgunakan "kekuatan otoritas ilmiah" dalam masalah ini ... Mungkin oleh ahli statistik jahat yang didorong oleh ilmiah imperialisme?
Alecos Papadopoulos
4
Pekerja yang buruk menyalahkan alatnya.
naught101
3
@BrianDHall Saya akan menyarankan untuk mencari sumber daya yang lebih otoritatif tentang masalah seputar NHSTP (termasuk situs ini), daripada karya penulis khusus tentang masalah ini. Masalahnya sulit dan halus-sudah dari komentar Anda orang harus membahas dulu semantik di sekitar "menerima" dan "menegaskan" ...
Alecos Papadopoulos
6
@ naught101: Jika Anda memperhatikan bahwa pekerja tersebut tidak dapat menangani gergaji dengan benar, Anda mungkin tidak menyalahkan alat itu. Tetapi Anda masih akan mengambilnya dari pekerja, untuk mencegah bahaya lebih lanjut ;-)
nikie
19

Saya merasa bahwa pelarangan tes hipotesis adalah ide bagus kecuali untuk beberapa hipotesis "keberadaan" tertentu, misalnya menguji hipotesis nol bahwa tidak ada persepsi ekstra-indera di mana semua orang perlu menunjukkan untuk memiliki bukti bahwa ESP ada adalah non-acak. . Tetapi saya pikir jurnal tersebut melewatkan poin bahwa pendorong utama dari penelitian yang buruk dalam psikologi adalah penggunaan ambang batas pada nilai- . Telah ditunjukkan dalam bidang psikologi dan sebagian besar bidang lainnya bahwa banyak permainan berlanjut hingga . Ini termasuk substitusi hipotesis, menghapus pengamatan, dan menyusun ulang data. Ini adalah ambang batas yang harus dilarang terlebih dahulu.PP<0.05

Larangan interval kepercayaan juga berlebihan, tetapi bukan karena alasan yang lain. Interval kepercayaan hanya berguna jika salah mengartikannya sebagai interval kredibel Bayesian (untuk prior non-informasi yang sesuai). Tetapi mereka masih bermanfaat. Fakta bahwa penafsiran mereka yang sering dan sering tidak mengarah pada apa pun kecuali kebingungan menyiratkan bahwa kita perlu "keluar dari Dodge" dan pergi ke Bayesian atau sekolah kemungkinan. Tetapi hasil yang bermanfaat dapat diperoleh dengan salah menafsirkan batas kepercayaan lama yang baik.

Sangat memalukan bahwa para editor jurnal tersebut salah memahami statistik Bayesian dan tidak mengetahui keberadaan kemungkinan kesimpulan murni. Apa yang mereka cari dapat dengan mudah disediakan oleh distribusi posterior Bayesian menggunakan prior yang sedikit skeptis.

Frank Harrell
sumber
+1, terima kasih. Izinkan saya mengklarifikasi tentang interval kepercayaan. Interval kepercayaan terkait dengan kesalahan standar, jadi sarannya mungkin untuk berhenti menggunakannya juga. Mari kita pertimbangkan kasus yang paling sederhana: beberapa nilai diukur melintasi sekelompok subjek / objek; katakanlah rata-rata adalah 3. Sejauh yang saya mengerti jurnal ini menyarankan untuk melaporkannya hanya sebagai 3. Tetapi apakah Anda tidak ingin melihat kesalahan standar juga, misalnya ? Ini tentu saja berarti bahwa interval kepercayaan 95% adalah jam , yang juga berarti bahwa , jadi semuanya terkait. Saya tidak yakin bagaimana Anda menyarankan untuk melaporkannya. n3±0.53±1p<0.05
Amoeba berkata Reinstate Monica
4
Saya pikir kesalahan standar terlalu disederhanakan (karena mereka menganggap distribusi simetris) tetapi ukuran presisi yang berguna, seperti kesalahan kuadrat rata-rata. Anda bisa memikirkan interval presisi berdasarkan root kuadrat kesalahan tanpa membayangkan cakupan probabilitas. Jadi saya tidak melihat di mana salah satu diskusi ini menyiratkan de-penekanan kesalahan standar. Dan saya tidak menyarankan agar kita berhenti menggunakan CL. Tetapi kesulitan dengan CLs terutama berasal dari upaya interpretasi probabilitas.
Frank Harrell
Hmmm. Menarik. Bagi saya sepertinya ada langkah kecil dari kesalahan standar ke CI (faktor konstan!), Yang memperlakukan mereka secara berbeda akan aneh. Tapi mungkin itu adalah titik semantik; Saya kira maksud Anda adalah bahwa orang berpikir tentang kesalahan standar dan CI berbeda dan cenderung lebih bingung tentang CI. Saya ingin tahu apa yang dikatakan kebijakan jurnal khusus ini tentang kesalahan standar (Editorial tidak menyebutkannya secara eksplisit).
Amoeba berkata Reinstate Monica
2
Dalam situasi simetris, kesalahan standar adalah blok bangunan untuk interval kepercayaan. Tetapi dalam banyak kasus interval kepercayaan yang benar adalah asimetris sehingga tidak dapat didasarkan pada kesalahan standar sama sekali. Beberapa varietas dari bootstrap dan transformasi balik adalah dua pendekatan dari tipe ini. Interval kemungkinan kepercayaan profil terutama muncul di sini.
Frank Harrell
@ Frank Harrell - Adapun "inferensi kemungkinan murni" Saya setuju bahwa penekanan terhadap peringkasan kemungkinan data tanpa memperindahnya dengan ambang batas tampaknya merupakan jawaban yang dipahami oleh para editor. Buku AWF Edwards "Likelihood" (1972) berbicara langsung dengan keprihatinan editor: "Kami dapat menunda pertimbangan argumen-argumen ini (misalnya pengujian signifikansi) sampai bab-bab selanjutnya, dan langsung beralih ke deskripsi prosedur, berdasarkan konsep Fisher dari Likelihood , Yang terbuka untuk semua objek yang mungkin diratakan pada tes signifikansi
John Mark
13

Saya melihat pendekatan ini sebagai upaya untuk mengatasi ketidakmampuan psikologi sosial untuk mereplikasi banyak 'temuan signifikan' yang telah diterbitkan sebelumnya.

Kerugiannya adalah:

  1. bahwa itu tidak mengatasi banyak faktor yang menyebabkan efek palsu. Misalnya,

    • A) Orang-orang masih dapat mengintip data mereka dan berhenti menjalankan studi mereka ketika sebuah efek menilai mereka cukup besar untuk menarik.

    • B) Ukuran efek besar masih akan tampak memiliki kekuatan besar dalam penilaian daya retrospektif.

    • C) Orang masih akan memancing efek yang menarik dan besar (menguji sekelompok hipotesis dalam percobaan dan kemudian melaporkan yang muncul) atau

    • D) berpura-pura bahwa efek aneh yang tak terduga diharapkan selama ini.

    Bukankah seharusnya ada upaya untuk mengatasi masalah ini terlebih dahulu?

  2. Seiring dengan kemajuan bidangnya, ini akan membuat tinjauan atas temuan-temuan sebelumnya cukup buruk. Tidak ada cara untuk secara kuantitatif menilai kepercayaan studi yang berbeda. Jika setiap jurnal menerapkan pendekatan ini, Anda akan memiliki banyak ilmuwan sosial yang mengatakan ada bukti untuk X ketika sama sekali tidak jelas seberapa dapat dipercayanya X dan para ilmuwan berdebat tentang bagaimana menafsirkan efek yang dipublikasikan atau berdebat tentang apakah itu penting atau berharga membicarakan tentang. Bukankah ini gunanya memiliki statistik? Untuk memberikan cara yang konsisten untuk menilai angka. Menurut pendapat saya, pendekatan baru ini akan menyebabkan kekacauan jika diterapkan secara luas.

  3. Perubahan ini tidak mendorong peneliti untuk menyerahkan hasil studi dengan ukuran efek kecil sehingga tidak benar-benar mengatasi efek file-drawer (atau mereka akan mempublikasikan temuan dengan n besar terlepas dari ukuran efek?). Jika kami menerbitkan semua hasil studi yang dirancang dengan hati-hati, maka meskipun kepercayaan hasil studi individu mungkin tidak pasti, meta-analisis dan ulasan studi yang memasok analisis statistik akan melakukan pekerjaan yang jauh lebih baik dalam mengidentifikasi kebenaran.

captain_ahab
sumber
2
@captain_ahab Mengenai poin 3, kita harus menyebutkan bahwa editorial sebelumnya (2014) dari Editor secara eksplisit mendorong pengajuan studi "null-effect".
Alecos Papadopoulos
1
Saya sepertinya tidak dapat menemukan komentar di editorial yang membahas kriteria untuk publikasi kecuali untuk kebutuhan memiliki ukuran sampel yang lebih besar dari biasanya (bagaimana mereka berencana mengidentifikasi n dapat diterima tanpa statistik inferensial tidak jelas bagi saya). Bagi saya tidak ada penekanan dalam editorial ini bahwa mereka tidak peduli apa ukuran efeknya. Tampaknya bagi saya bahwa mereka masih akan mencari efek yang menarik dan cerita yang menarik, yang menurut saya merupakan masalah yang lebih besar dalam pekerjaan ilmu sosial (yaitu, pencarian post-hoc untuk efek dan cerita yang menarik).
captain_ahab
2
Apa yang tampak sebagai solusi yang lebih baik adalah bahwa semua ilmuwan harus mencatat hipotesis, dasar rasional, kekuatan dan pendekatan analitik dari studi di tempat PUBLIK SEBELUM menjalankan penelitian. Dan kemudian dibatasi untuk menerbitkan studi itu dengan cara yang ditentukan. Jika ditemukan efek menarik yang tak terduga, mereka harus secara terbuka mencatat lalu menjalankan studi baru yang meneliti efek itu. Pendekatan ini sambil mengendalikan positif palsu juga akan memungkinkan para ilmuwan untuk menunjukkan produktivitas mereka tanpa menerbitkan efek baru.
captain_ahab
7

Saya menemukan kutipan yang bagus yang hampir mengemukakan alasan yang sama, tetapi tidak cukup - karena ini adalah paragraf pembuka dalam buku teks yang sebagian besar tentang statistik dan pengujian hipotesis yang sering dilakukan.

Secara luas dipegang oleh non-ahli statistik, seperti penulis, bahwa jika Anda melakukan percobaan yang baik, statistik tidak diperlukan. Mereka memang benar. [...] Masalahnya, tentu saja, melakukan eksperimen yang baik itu sulit. Kebanyakan orang membutuhkan semua bantuan yang bisa mereka dapatkan untuk mencegah mereka membodohi diri sendiri dengan mengklaim bahwa teori favorit mereka didukung oleh pengamatan yang tidak melakukan hal semacam itu. Dan fungsi utama dari bagian statistik yang berhubungan dengan tes signifikansi adalah untuk mencegah orang membodohi diri sendiri. Dari sudut pandang ini, fungsi uji signifikansi adalah untuk mencegah orang menerbitkan eksperimen, bukan untuk mendorong mereka. Idealnya, memang, tes signifikansi seharusnya tidak pernah muncul di cetak, telah digunakan, jika sama sekali, pada tahap awal untuk mendeteksi eksperimen yang tidak memadai,

- David Colquhoun, Ceramah tentang biostatistik , 1971

amuba kata Reinstate Monica
sumber
1
Posting Anda benar-benar sebuah komentar, bukan jawaban, jadi saya menahan diri untuk tidak meningkatkannya, tetapi saya ingin mengucapkan terima kasih karena telah membagikan kutipannya. Ada begitu banyak kesalahpahaman yang jelas dalam perikop ini sehingga perlu upaya yang luas (untuk tidak mengatakan ruang) untuk menunjukkan dan menghilangkan prasangka mereka semua. Namun, dalam satu kata, perlawanan terhadap pernyataan ini adalah "efisiensi." Jika setiap orang memiliki waktu dan anggaran yang tidak terbatas, kami setidaknya bisa bercita-cita untuk melakukan "eksperimen yang baik." Tetapi ketika sumber daya terbatas, akan sangat bodoh (dan juga mahal) untuk melakukan hanya eksperimen "final, ... clear".
whuber
2
Terima kasih atas komentar Anda, @whuber; Saya setuju dengan apa yang Anda katakan. Namun, saya harus menambahkan bahwa saya merasa menarik untuk mengatakan bahwa idealnya data eksperimental harus begitu meyakinkan untuk membuat tes hipotesis formal menjadi berlebihan. Ini bukan cita-cita yang tidak mungkin tercapai! Dalam bidang saya (di mana p-nilai yang digunakan banyak), saya menemukan bahwa surat-surat terbaik yang meyakinkan tanpa mereka: misalnya karena mereka menyajikan urutan beberapa eksperimen mendukung satu sama lain, yang diambil bersama-sama, jelas tidak bisa menjadi kebetulan statistik. Komentar ulang: terlalu panjang untuk dikomentari, dan saya pikir tidak apa-apa sebagai jawaban CW.
Amuba kata Reinstate Monica
Ya, saya mengerti mengapa itu harus diposting sebagai jawaban, dan karena itu tidak memilih untuk memindahkannya ke komentar (yang akan memotong bagian terakhir dari kutipan). Saya setuju bahwa cita-cita itu tidak mungkin tercapai dalam kasus-kasus tertentu . Saya juga setuju itu ide yang bagus untuk diingat. Tetapi sebagai panduan bagaimana merancang eksperimen (yang, secara keseluruhan, disiplin dalam mengalokasikan sumber daya), ini bisa menjadi kesalahan besar. (Ini tentu bisa diperdebatkan.) Saran bahwa percobaan "baik" tidak akan pernah memerlukan metode statistik, bagaimanapun, adalah yang tidak tahan bahkan untuk pemeriksaan sepintas.
whuber
1
Mungkin salah satu cara membaca yang mengatakan tes signifikansi awal yang menyarankan suatu zat merangsang respons fisiologis tertentu tidak lagi relevan pada saat Anda menerbitkan penyelidikan Anda tentang efek dari berbagai jenis inhibitor pada kurva dosis-respons.
Scortchi