Pada 25 Februari 2015, jurnal Basic and Applied Social Psychology mengeluarkan editorial yang melarang nilai- dan interval kepercayaan dari semua makalah yang akan datang.
Secara khusus, kata mereka (format dan penekanan adalah milikku):
[...] sebelum publikasi, penulis harus menghapus semua sisa-sisa NHSTP [prosedur pengujian signifikansi nol hipotesis] (nilai- , nilai- , nilai- , pernyataan tentang perbedaan 'signifikan' 'atau kekurangannya , dan seterusnya).
Sejalan dengan bagaimana NHSTP gagal memberikan probabilitas hipotesis nol, yang diperlukan untuk memberikan alasan kuat untuk menolaknya, interval kepercayaan tidak memberikan alasan kuat untuk menyimpulkan bahwa parameter populasi yang diminati cenderung berada di dalam yang dinyatakan. selang. Oleh karena itu, interval kepercayaan juga dilarang dari BASP.
[...] sehubungan dengan prosedur Bayesian, kami berhak untuk membuat penilaian kasus per kasus, dan dengan demikian prosedur Bayesian tidak diharuskan atau dilarang dari BASP.
[...] Apakah diperlukan prosedur statistik inferensial? - Tidak [...] Namun, BASP akan membutuhkan statistik deskriptif yang kuat, termasuk ukuran efek.
Mari kita tidak membahas masalah dengan dan penyalahgunaan nilai- sini; sudah ada banyak diskusi bagus tentang CV yang dapat ditemukan dengan menelusuri tag p-value . Kritik nilai- sering kali sejalan dengan saran untuk melaporkan interval kepercayaan untuk parameter yang menarik. Misalnya, dalam jawaban yang sangat diperdebatkan ini, @gung menyarankan untuk melaporkan ukuran efek dengan interval kepercayaan di sekitar mereka. Tetapi jurnal ini juga melarang interval kepercayaan diri.
Apa keuntungan dan kerugian dari pendekatan seperti itu untuk menyajikan data dan hasil eksperimen yang bertentangan dengan pendekatan "tradisional" dengan nilai , interval kepercayaan, dan dikotomi yang signifikan / tidak signifikan? Reaksi terhadap larangan ini tampaknya sebagian besar negatif; jadi apa kerugiannya? American Statistics Association bahkan telah memposting komentar singkat tentang larangan ini, dengan mengatakan bahwa "kebijakan ini mungkin memiliki konsekuensi negatifnya sendiri". Apa konsekuensi negatif ini?
Atau seperti yang disarankan @whuber, perlukah pendekatan ini diadvokasi secara umum sebagai paradigma penelitian kuantitatif? Dan jika tidak, mengapa tidak?
PS. Perhatikan bahwa pertanyaan saya bukan tentang larangan itu sendiri ; ini tentang pendekatan yang disarankan. Saya juga tidak bertanya tentang kesimpulan frequentes vs Bayesian. Editorial juga cukup negatif tentang metode Bayesian; jadi pada dasarnya tentang menggunakan statistik vs tidak menggunakan statistik sama sekali.
Jawaban:
Kalimat pertama editorial 2015 saat ini di mana OP terhubung, berbunyi:
(penekanan saya)
Dengan kata lain, bagi para editor itu adalah fakta ilmiah yang sudah terbukti bahwa "pengujian signifikansi nol hipotesis" tidak valid, dan editorial 2014 hanya menekankan demikian, sedangkan editorial 2015 saat ini hanya mengimplementasikan fakta ini.
Penyalahgunaan (bahkan jahat) NHSTP memang dibahas dan didokumentasikan dengan baik. Dan bukan tidak pernah terdengar dalam sejarah manusia bahwa "hal-hal dilarang" karena telah ditemukan bahwa setelah semua dikatakan dan dilakukan, mereka disalahgunakan lebih dari dimanfaatkan dengan baik (tetapi tidakkah kita secara statistik menguji itu?). Ini bisa menjadi solusi "terbaik kedua", untuk memotong apa yang rata-rata (statistik inferensial) telah merugi, jadi kami memperkirakan (statistik inferensial) bahwa itu akan merugikan juga di masa depan.
Tetapi semangat yang diungkapkan di balik kata-kata dari kalimat pertama di atas, menjadikan hal ini - tepatnya, sebagai pendekatan fanatik daripada keputusan berkepala dingin untuk memotong tangan yang cenderung mencuri daripada menawarkan. Jika seseorang membaca editorial satu tahun yang lebih tua yang disebutkan dalam kutipan di atas (DOI: 10.1080 / 01973533.2014.865505), orang akan melihat bahwa ini hanyalah bagian dari pengangkutan kembali kebijakan Jurnal oleh Editor baru.
Menggulung editorial, mereka menulis
Jadi tampaknya kesimpulan mereka terkait dengan disiplin mereka adalah bahwa hipotesis nol ditolak "terlalu sering", dan dugaan temuan dapat memperoleh signifikansi statistik palsu. Argumen ini tidak sama dengan diktum "tidak valid" dalam kalimat pertama.
Jadi, untuk menjawab pertanyaan itu, jelas bagi para editor jurnal, keputusan mereka tidak hanya bijaksana tetapi sudah terlambat diimplementasikan: mereka tampaknya berpikir bahwa mereka memotong bagian statistik mana yang menjadi berbahaya, menjaga bagian yang menguntungkan - mereka sepertinya tidak percaya bahwa ada sesuatu di sini yang perlu diganti dengan sesuatu yang "setara".
Secara epistemologis, ini adalah contoh di mana para sarjana ilmu sosial sebagian menarik kembali dari upaya untuk membuat disiplin mereka lebih objektif dalam metode dan hasil dengan menggunakan metode kuantitatif, karena mereka telah sampai pada kesimpulan (bagaimana?) Itu, pada akhirnya , upaya yang dibuat "lebih buruk daripada baik". Saya akan mengatakan bahwa ini adalah masalah yang sangat penting, pada prinsipnya mungkin telah terjadi, dan yang akan membutuhkan kerja bertahun-tahun untuk menunjukkannya "tanpa keraguan" dan benar-benar membantu disiplin Anda. Tetapi hanya satu atau dua editorial dan makalah yang diterbitkan kemungkinan besar (statistik inferensial) hanya memicu perang saudara.
Kalimat terakhir editorial 2015 berbunyi:
sumber
Saya merasa bahwa pelarangan tes hipotesis adalah ide bagus kecuali untuk beberapa hipotesis "keberadaan" tertentu, misalnya menguji hipotesis nol bahwa tidak ada persepsi ekstra-indera di mana semua orang perlu menunjukkan untuk memiliki bukti bahwa ESP ada adalah non-acak. . Tetapi saya pikir jurnal tersebut melewatkan poin bahwa pendorong utama dari penelitian yang buruk dalam psikologi adalah penggunaan ambang batas pada nilai- . Telah ditunjukkan dalam bidang psikologi dan sebagian besar bidang lainnya bahwa banyak permainan berlanjut hingga . Ini termasuk substitusi hipotesis, menghapus pengamatan, dan menyusun ulang data. Ini adalah ambang batas yang harus dilarang terlebih dahulu.P P<0.05
Larangan interval kepercayaan juga berlebihan, tetapi bukan karena alasan yang lain. Interval kepercayaan hanya berguna jika salah mengartikannya sebagai interval kredibel Bayesian (untuk prior non-informasi yang sesuai). Tetapi mereka masih bermanfaat. Fakta bahwa penafsiran mereka yang sering dan sering tidak mengarah pada apa pun kecuali kebingungan menyiratkan bahwa kita perlu "keluar dari Dodge" dan pergi ke Bayesian atau sekolah kemungkinan. Tetapi hasil yang bermanfaat dapat diperoleh dengan salah menafsirkan batas kepercayaan lama yang baik.
Sangat memalukan bahwa para editor jurnal tersebut salah memahami statistik Bayesian dan tidak mengetahui keberadaan kemungkinan kesimpulan murni. Apa yang mereka cari dapat dengan mudah disediakan oleh distribusi posterior Bayesian menggunakan prior yang sedikit skeptis.
sumber
Saya melihat pendekatan ini sebagai upaya untuk mengatasi ketidakmampuan psikologi sosial untuk mereplikasi banyak 'temuan signifikan' yang telah diterbitkan sebelumnya.
Kerugiannya adalah:
bahwa itu tidak mengatasi banyak faktor yang menyebabkan efek palsu. Misalnya,
A) Orang-orang masih dapat mengintip data mereka dan berhenti menjalankan studi mereka ketika sebuah efek menilai mereka cukup besar untuk menarik.
B) Ukuran efek besar masih akan tampak memiliki kekuatan besar dalam penilaian daya retrospektif.
C) Orang masih akan memancing efek yang menarik dan besar (menguji sekelompok hipotesis dalam percobaan dan kemudian melaporkan yang muncul) atau
D) berpura-pura bahwa efek aneh yang tak terduga diharapkan selama ini.
Bukankah seharusnya ada upaya untuk mengatasi masalah ini terlebih dahulu?
Seiring dengan kemajuan bidangnya, ini akan membuat tinjauan atas temuan-temuan sebelumnya cukup buruk. Tidak ada cara untuk secara kuantitatif menilai kepercayaan studi yang berbeda. Jika setiap jurnal menerapkan pendekatan ini, Anda akan memiliki banyak ilmuwan sosial yang mengatakan ada bukti untuk X ketika sama sekali tidak jelas seberapa dapat dipercayanya X dan para ilmuwan berdebat tentang bagaimana menafsirkan efek yang dipublikasikan atau berdebat tentang apakah itu penting atau berharga membicarakan tentang. Bukankah ini gunanya memiliki statistik? Untuk memberikan cara yang konsisten untuk menilai angka. Menurut pendapat saya, pendekatan baru ini akan menyebabkan kekacauan jika diterapkan secara luas.
Perubahan ini tidak mendorong peneliti untuk menyerahkan hasil studi dengan ukuran efek kecil sehingga tidak benar-benar mengatasi efek file-drawer (atau mereka akan mempublikasikan temuan dengan n besar terlepas dari ukuran efek?). Jika kami menerbitkan semua hasil studi yang dirancang dengan hati-hati, maka meskipun kepercayaan hasil studi individu mungkin tidak pasti, meta-analisis dan ulasan studi yang memasok analisis statistik akan melakukan pekerjaan yang jauh lebih baik dalam mengidentifikasi kebenaran.
sumber
Saya menemukan kutipan yang bagus yang hampir mengemukakan alasan yang sama, tetapi tidak cukup - karena ini adalah paragraf pembuka dalam buku teks yang sebagian besar tentang statistik dan pengujian hipotesis yang sering dilakukan.
sumber