Menghentikan aturan memengaruhi hubungan antara nilai-P dan tingkat kesalahan yang terkait dengan keputusan. Sebuah makalah terbaru oleh Simmons et al. 2011 menciptakan istilah derajat kebebasan peneliti untuk menggambarkan kumpulan perilaku yang mereka anggap bertanggung jawab atas banyak laporan dalam literatur psikologi yang telah ditemukan tidak dapat direproduksi.
Dari perilaku-perilaku itu, aturan penghentian opsional atau analisis sementara yang tidak dideklarasikan adalah apa yang saat ini saya minati. Saya menjelaskan pengaruhnya terhadap tingkat kesalahan pada siswa saya, tetapi tampaknya tidak dijelaskan dalam buku teks yang digunakan oleh siswa saya (atau tidak menggunakan!). Di toko buku utama di universitas saya ada empat belas buku teks statistik yang ditujukan untuk siswa tingkat pengantar dalam berbagai disiplin ilmu seperti biosains, bisnis, teknik dll. Hanya satu dari teks-teks itu yang berisi item indeks "pengujian berurutan 'dan tidak ada yang memiliki item indeks' menghentikan aturan '.
Apakah ada buku teks statistik tingkat pengantar yang menjelaskan masalah aturan penghentian opsional?
Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi Positif-Palsu: Fleksibilitas yang Tidak diungkapkan dalam Pengumpulan dan Analisis Data Memungkinkan Menyajikan Apa pun sebagai Signifikan . Ilmu Psikologi, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632
sumber
Jawaban:
Anda tidak dapat memiliki aturan penghentian tanpa mengetahui distribusi dan ukuran efek Anda - yang tidak Anda ketahui apriori.
Juga ya, kita perlu fokus pada ukuran efek - dan itu tidak pernah dianggap benar untuk hanya mempertimbangkan nilai-p, dan kita tentu tidak boleh menampilkan tabel atau grafik yang menunjukkan nilai-p atau nilai-F daripada ukuran efek.
Ada masalah dengan Uji Statistik Hipotesis Inferensi tradisional (yang Cohen katakan layak akronimnya, dan Fisher dan Pearson keduanya akan membalik kuburan jika mereka melihat semua yang dilakukan dengan menggunakan nama mereka yang ditentang keras hari ini).
Untuk menentukan N, Anda harus sudah menentukan signifikansi target dan ambang batas daya, serta membuat banyak asumsi tentang distribusi, dan khususnya Anda juga harus menentukan ukuran efek yang ingin Anda buat. Indolering benar bahwa ini harus menjadi titik awal - ukuran efek minimum apa yang efektif biaya!
"Statistik Baru" menganjurkan menunjukkan ukuran efek (sebagai perbedaan berpasangan jika sesuai), bersama dengan standar deviasi atau varians yang terkait (karena kita perlu memahami distribusi), dan standar deviasi atau interval kepercayaan (tetapi yang terakhir sudah mengunci nilai p dan keputusan tentang apakah Anda memprediksi arah atau taruhan setiap arah). Tetapi menetapkan efek minimum dari tanda yang ditentukan dengan prediksi ilmiah, memperjelas ini - meskipun standar pra-ilmiah adalah melakukan coba-coba dan hanya mencari perbedaan. Tetapi sekali lagi Anda telah membuat asumsi tentang normalitas jika Anda pergi dengan cara ini.
Pendekatan lain adalah dengan menggunakan plot kotak sebagai pendekatan non-parametrik, tetapi konvensi tentang kumis dan pencilan sangat bervariasi dan itupun berasal dari asumsi distribusi.
Masalah penghentian memang bukan masalah pengaturan peneliti individu atau tidak pengaturan N, tetapi bahwa kami memiliki seluruh komunitas yang terdiri dari ribuan peneliti, di mana 1000 lebih dari 1 / alpha untuk tingkat 0,05 tradisional. Jawabannya saat ini diusulkan untuk memberikan ringkasan statistik (rata-rata, stddev, stderr - atau "versi non-parametrik yang sesuai - median dll. Dengan boxplot) untuk memfasilitasi meta-analisis, dan menyajikan hasil gabungan dari semua percobaan apakah itu terjadi telah mencapai level alpha tertentu atau tidak.
Terkait erat adalah masalah pengujian berganda, yang sama sarat dengan kesulitan, dan di mana eksperimen disimpan terlalu sederhana atas nama daya pengawetan, sementara metodologi overcomplex diusulkan untuk menganalisis hasil.
Saya kira belum ada bab buku teks yang membahas hal ini secara pasti, karena kami masih memiliki sedikit gagasan tentang apa yang kami lakukan ...
Untuk saat ini, pendekatan terbaik mungkin untuk terus menggunakan statistik tradisional yang paling sesuai dengan masalah, dikombinasikan dengan menampilkan statistik ringkasan - efek dan kesalahan standar dan N menjadi yang paling penting. Penggunaan interval kepercayaan pada dasarnya setara dengan uji-T yang sesuai, tetapi memungkinkan membandingkan hasil baru dengan yang dipublikasikan secara lebih bermakna, serta memungkinkan etos yang mendorong reproduktifitas, dan publikasi percobaan yang direproduksi dan meta-analisis.
Dalam hal pendekatan Teori Informasi atau Bayesian, mereka menggunakan alat yang berbeda dan membuat asumsi yang berbeda, tetapi masih tidak memiliki semua jawaban, dan pada akhirnya menghadapi masalah yang sama, atau yang lebih buruk karena inferensi Bayesian mundur dari membuat definitif menjawab dan hanya mengemukakan bukti yang dianggap atau tidak ada.
Pembelajaran Mesin pada akhirnya juga memiliki hasil yang perlu dipertimbangkan untuk signifikansi - sering dengan CIs atau T-Test, sering dengan grafik, semoga berpasangan daripada hanya membandingkan, dan menggunakan versi kompensasi yang tepat ketika distribusi tidak cocok. Ia juga memiliki kontroversi tentang bootstrap dan cross-validation, dan bias dan varians. Yang terburuk, ia memiliki kecenderungan untuk menghasilkan dan menguji berjuta model alternatif hanya dengan parameterisasi secara menyeluruh semua algoritma di salah satu dari banyak kotak peralatan, diterapkan pada kumpulan data yang diarsipkan dengan cermat untuk memungkinkan beberapa pengujian tanpa terkendali. Masih terburuk masih dalam zaman kegelapan menggunakan akurasi, atau lebih buruk lagi ukuran-F, untuk evaluasi - daripada metode kebetulan-benar.
Saya telah membaca lusinan makalah tentang masalah ini, tetapi gagal menemukan sesuatu yang benar-benar meyakinkan - kecuali survei negatif atau makalah meta-analisis yang tampaknya menunjukkan bahwa sebagian besar peneliti tidak menangani dan menafsirkan statistik dengan benar sehubungan dengan standar "apa pun" ", lama atau baru. Kekuatan, beberapa pengujian, ukuran dan penghentian awal, interpretasi kesalahan standar dan interval kepercayaan, ... ini hanya beberapa masalah.
Tolong tembak saya - saya ingin terbukti salah! Dalam pandangan saya ada banyak air mandi, tetapi kami belum menemukan bayinya! Pada tahap ini tidak ada pandangan ekstrem atau pendekatan merek-merek yang tampak menjanjikan sebagai jawabannya, dan mereka yang ingin membuang segala sesuatu yang lain mungkin telah kehilangan bayinya.
sumber
Saya tidak percaya bahwa "aturan penghentian" opsional adalah istilah teknis dalam hal penghentian optimal. Namun, saya ragu bahwa Anda akan menemukan banyak diskusi mendalam tentang topik dalam buku teks statistik psikologi tingkat intro.
Alasan sinis untuk ini adalah bahwa semua siswa ilmu sosial memiliki keterampilan matematika yang lemah. Jawaban yang lebih baik, IMHO, adalah bahwa Uji-t sederhana tidak sesuai untuk sebagian besar eksperimen ilmu sosial. Kita harus melihat kekuatan efek dan mencari tahu apakah itu menyelesaikan perbedaan antara kelompok. Yang pertama dapat menunjukkan bahwa yang terakhir adalah mungkin tetapi hanya itu yang bisa dilakukan.
Ukuran pengeluaran kesejahteraan, regulasi negara, dan urbanisasi semuanya memiliki hubungan yang signifikan secara statistik dengan ukuran perilaku keagamaan. Namun, hanya menyatakan nilai-p membingkai tes dalam hubungan kausal semua atau tidak sama sekali. Lihat yang berikut ini:
Hasil dari pengeluaran untuk kesejahteraan dan urbanisasi memiliki nilai-p yang signifikan secara statistik tetapi pengeluaran untuk kesejahteraan jauh lebih berkorelasi kuat. Yang menghabiskan kesejahteraan acara seperti hubungan yang kuat untuk langkah-langkah lain dari religiusitas ( tingkat non-religius serta kenyamanan dalam agama ) yang urbanisasi bahkan tidak mencapai p-nilai
< .10
, menunjukkan bahwa urbanisasi tidak berdampak keyakinan agama umum. Namun, perlu diketahui bahwa bahkan pengeluaran untuk kesejahteraan tidak menjelaskan Irlandia atau Filipina, menunjukkan bahwa beberapa efek lain relatif lebih kuat daripada pengeluaran untuk kesejahteraan .Mengandalkan "aturan berhenti" dapat mengarah pada hal positif yang salah, terutama dalam ukuran sampel psikologi yang kecil. Psikologi sebagai sebuah bidang benar-benar tertahan oleh semacam gangguan statistik ini. Namun, menempatkan semua kepercayaan kita pada nilai-p yang sewenang-wenang juga sangat bodoh. Bahkan jika kita semua mengirim sampel ukuran dan pernyataan hipotesis kami ke jurnal sebelum melakukan percobaan, kami masih akan mengalami kesalahan positif karena akademisi secara kolektif mencari signifikansi statistik.
Hal yang benar untuk dilakukan adalah tidak menghentikan penambangan data, hal yang benar untuk dilakukan adalah mendeskripsikan hasil sehubungan dengan efeknya . Teori dinilai tidak hanya oleh keakuratan prediksi mereka tetapi juga oleh kegunaan prediksi tersebut. Tidak peduli sebagus apa pun metodologi penelitiannya, obat yang memberikan peningkatan 1% pada gejala flu tidak sebanding dengan biaya untuk dimasukkan ke dalam kapsul.
Pembaruan Agar lebih jelas, saya sepenuhnya setuju bahwa para ilmuwan sosial harus memiliki standar yang lebih tinggi: kita perlu meningkatkan pendidikan, memberi para ilmuwan sosial alat yang lebih baik, dan meningkatkan level signifikansinya menjadi 3-sigma. Saya mencoba untuk menekankan titik yang kurang terwakili: sebagian besar studi psikologi tidak berharga karena ukuran efeknya sangat kecil.
Tetapi dengan Amazon Turk, saya dapat mengkompensasi dengan benar untuk menjalankan 10 studi parralel dan mempertahankan tingkat kepercayaan> 3-sigma dengan sangat murah. Tetapi jika kekuatan efeknya kecil, maka ada ancaman signifikan terhadap validitas eksternal. Efek manipulasi mungkin disebabkan oleh berita, atau urutan pertanyaan, atau ....
Saya tidak punya waktu untuk esai, tetapi masalah kualitas dalam ilmu sosial jauh melampaui metode statistik jelek.
sumber
Artikel yang Anda kutip tidak menyebutkan tentang menghentikan peraturan dan tampaknya tidak terlalu berpengaruh pada masalah yang dihadapi. Satu-satunya hubungan mereka yang sangat kecil adalah pengujian berganda yang merupakan konsep statistik , bukan konsep ilmiah.
Dalam literatur uji klinis, Anda akan menemukan bahwa aturan berhenti dibuat ketat dengan informasi eksplisit tentang kondisi di mana penelitian akan "terlihat": berdasarkan tahun kalender, atau pendaftaran orang-tahun, pengaturan tingkat alfa, dan juga terikat pada efek untuk perawatan "efektif" versus "berbahaya". Memang, kita harus melihat pada penelitian yang ketat seperti contoh sains yang dilakukan dengan baik . FDA bahkan akan melangkah lebih jauh dengan mengatakan, setelah menemukan kemanjuran yang signifikan selain yang ditentukan sebelumnya, percobaan kedua harus dilakukan untuk memvalidasi temuan ini. Ini masih menjadi masalah sehingga Thomas Flemming merekomendasikan bahwa semua studi klinis perludivalidasi dengan uji coba konfirmasi kedua yang sepenuhnya independen , yang dilakukan oleh entitas yang terpisah. Begitu buruknya masalah kesalahan positif palsu ketika mempertimbangkan kehidupan dan perawatan medis.
Dengan pengawasan yang tampaknya tidak berbahaya, bidang ilmu pengetahuan lain telah melanggengkan etika buruk dalam penelitian. Memang, ilmu sosial tidak mempengaruhi perawatan yang diterima orang, mereka berurusan dengan abstrak, dan model konseptual yang hanya meningkatkan pemahaman kita tentang interaksi teori dan observasi. Namun, setiap konsumen ilmu sosial, awam atau ilmiah, sering disajikan dengan temuan yang saling bertentangan: coklat baik untuk Anda, cokelat buruk untuk Anda (cokelat baik untuk Anda, omong-omong, gula dan lemakdalam cokelat itu buruk untukmu), seks itu baik untukmu, pernikahan membuatmu sedih / pernikahan membuatmu bahagia. Bidang ini lalai dengan ilmu yang buruk. Bahkan saya bersalah karena mengerjakan analisis di mana saya tidak senang dengan bahasa yang sangat kausal yang kemudian terkait dengan rekomendasi yang kuat tentang kebijakan dan dukungan federal, benar-benar tidak dapat dibenarkan dan belum dipublikasikan.
Artikel Simmons menjelaskan secara efektif, bagaimana pengungkapan akan membantu dalam membuat eksplisit jenis "pintasan" yang dibuat peneliti dalam studi sosial. Simmons memberikan dalam Tabel 1 contoh tentang bagaimana pengerukan data secara dramatis meningkatkan tingkat kesalahan positif palsu dengan cara yang khas dari ilmuwan "tidak etis mencari" temuan. Ringkasan temuan dalam Tabel 2 menggambarkan aspek-aspek yang sering dihilangkan dari artikel yang akan sangat membantu meningkatkan pemahaman tentang bagaimana mungkin lebih dari satu analisis dilakukan.
Untuk meringkas, menghentikan aturan hanya akan sesuai dengan hipotesis yang telah ditentukan: ini adalah etis dan memerlukan metode statistik. Artikel Simmons mengakui bahwa banyak penelitian bahkan tidak mengabulkannya, dan secara etis tidak sehat tetapi bahasa statistik memaksa mengapa itu salah.
sumber