Aturan penghentian opsional tidak ada dalam buku teks

16

Menghentikan aturan memengaruhi hubungan antara nilai-P dan tingkat kesalahan yang terkait dengan keputusan. Sebuah makalah terbaru oleh Simmons et al. 2011 menciptakan istilah derajat kebebasan peneliti untuk menggambarkan kumpulan perilaku yang mereka anggap bertanggung jawab atas banyak laporan dalam literatur psikologi yang telah ditemukan tidak dapat direproduksi.

Dari perilaku-perilaku itu, aturan penghentian opsional atau analisis sementara yang tidak dideklarasikan adalah apa yang saat ini saya minati. Saya menjelaskan pengaruhnya terhadap tingkat kesalahan pada siswa saya, tetapi tampaknya tidak dijelaskan dalam buku teks yang digunakan oleh siswa saya (atau tidak menggunakan!). Di toko buku utama di universitas saya ada empat belas buku teks statistik yang ditujukan untuk siswa tingkat pengantar dalam berbagai disiplin ilmu seperti biosains, bisnis, teknik dll. Hanya satu dari teks-teks itu yang berisi item indeks "pengujian berurutan 'dan tidak ada yang memiliki item indeks' menghentikan aturan '.

Apakah ada buku teks statistik tingkat pengantar yang menjelaskan masalah aturan penghentian opsional?

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi Positif-Palsu: Fleksibilitas yang Tidak diungkapkan dalam Pengumpulan dan Analisis Data Memungkinkan Menyajikan Apa pun sebagai Signifikan . Ilmu Psikologi, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632

Michael Lew - mengembalikan Monica
sumber
1
Bukankah masalahnya hilang jika Anda membuang statistik frequentist dan pergi dengan metode IT atau Bayesian? (Atau bahkan pembelajaran mesin murni, tergantung pada ukuran dataset Anda) Itu tidak sembrono - penghancuran yang tidak kompatibel dari Fisher dan NP tidak menyebabkan masalah, bahkan ketika dilakukan "dengan benar." Di masa depan, tidak akan ada lagi yang lebih sering.
lelaki
1
Ya, masalah akan hilang jika tidak ada penggunaan metode yang harus sesuai dengan prinsip frekuensi. Namun, masa depan seperti itu mungkin tidak akan datang di dunia ini. Apa itu?
Michael Lew - mengembalikan Monica
2
@Michael: Hampir tidak diragukan lagi itu (yaitu, IT) singkatan dari "teori informasi".
kardinal
Pada topik terkait: errorstatistics.com/2013/04/06/…
Fr.
2
@thedude menggunakan kerangka teori yang berbeda memperkenalkan masalah lain . Masalahnya di sini adalah Anda semua memperlakukan matematika sebagai sesuatu yang bukan hanya deskripsi dunia. Statistik Frequentist adalah salah satu cara yang sangat berguna untuk menggambarkan dunia, bayesian adalah cara lain. Tidak ada yang akan memberi Anda Oracle kebenaran .
Indolering

Jawaban:

2

Anda tidak dapat memiliki aturan penghentian tanpa mengetahui distribusi dan ukuran efek Anda - yang tidak Anda ketahui apriori.

Juga ya, kita perlu fokus pada ukuran efek - dan itu tidak pernah dianggap benar untuk hanya mempertimbangkan nilai-p, dan kita tentu tidak boleh menampilkan tabel atau grafik yang menunjukkan nilai-p atau nilai-F daripada ukuran efek.

Ada masalah dengan Uji Statistik Hipotesis Inferensi tradisional (yang Cohen katakan layak akronimnya, dan Fisher dan Pearson keduanya akan membalik kuburan jika mereka melihat semua yang dilakukan dengan menggunakan nama mereka yang ditentang keras hari ini).

Untuk menentukan N, Anda harus sudah menentukan signifikansi target dan ambang batas daya, serta membuat banyak asumsi tentang distribusi, dan khususnya Anda juga harus menentukan ukuran efek yang ingin Anda buat. Indolering benar bahwa ini harus menjadi titik awal - ukuran efek minimum apa yang efektif biaya!

"Statistik Baru" menganjurkan menunjukkan ukuran efek (sebagai perbedaan berpasangan jika sesuai), bersama dengan standar deviasi atau varians yang terkait (karena kita perlu memahami distribusi), dan standar deviasi atau interval kepercayaan (tetapi yang terakhir sudah mengunci nilai p dan keputusan tentang apakah Anda memprediksi arah atau taruhan setiap arah). Tetapi menetapkan efek minimum dari tanda yang ditentukan dengan prediksi ilmiah, memperjelas ini - meskipun standar pra-ilmiah adalah melakukan coba-coba dan hanya mencari perbedaan. Tetapi sekali lagi Anda telah membuat asumsi tentang normalitas jika Anda pergi dengan cara ini.

Pendekatan lain adalah dengan menggunakan plot kotak sebagai pendekatan non-parametrik, tetapi konvensi tentang kumis dan pencilan sangat bervariasi dan itupun berasal dari asumsi distribusi.

Masalah penghentian memang bukan masalah pengaturan peneliti individu atau tidak pengaturan N, tetapi bahwa kami memiliki seluruh komunitas yang terdiri dari ribuan peneliti, di mana 1000 lebih dari 1 / alpha untuk tingkat 0,05 tradisional. Jawabannya saat ini diusulkan untuk memberikan ringkasan statistik (rata-rata, stddev, stderr - atau "versi non-parametrik yang sesuai - median dll. Dengan boxplot) untuk memfasilitasi meta-analisis, dan menyajikan hasil gabungan dari semua percobaan apakah itu terjadi telah mencapai level alpha tertentu atau tidak.

Terkait erat adalah masalah pengujian berganda, yang sama sarat dengan kesulitan, dan di mana eksperimen disimpan terlalu sederhana atas nama daya pengawetan, sementara metodologi overcomplex diusulkan untuk menganalisis hasil.

Saya kira belum ada bab buku teks yang membahas hal ini secara pasti, karena kami masih memiliki sedikit gagasan tentang apa yang kami lakukan ...

Untuk saat ini, pendekatan terbaik mungkin untuk terus menggunakan statistik tradisional yang paling sesuai dengan masalah, dikombinasikan dengan menampilkan statistik ringkasan - efek dan kesalahan standar dan N menjadi yang paling penting. Penggunaan interval kepercayaan pada dasarnya setara dengan uji-T yang sesuai, tetapi memungkinkan membandingkan hasil baru dengan yang dipublikasikan secara lebih bermakna, serta memungkinkan etos yang mendorong reproduktifitas, dan publikasi percobaan yang direproduksi dan meta-analisis.

Dalam hal pendekatan Teori Informasi atau Bayesian, mereka menggunakan alat yang berbeda dan membuat asumsi yang berbeda, tetapi masih tidak memiliki semua jawaban, dan pada akhirnya menghadapi masalah yang sama, atau yang lebih buruk karena inferensi Bayesian mundur dari membuat definitif menjawab dan hanya mengemukakan bukti yang dianggap atau tidak ada.

Pembelajaran Mesin pada akhirnya juga memiliki hasil yang perlu dipertimbangkan untuk signifikansi - sering dengan CIs atau T-Test, sering dengan grafik, semoga berpasangan daripada hanya membandingkan, dan menggunakan versi kompensasi yang tepat ketika distribusi tidak cocok. Ia juga memiliki kontroversi tentang bootstrap dan cross-validation, dan bias dan varians. Yang terburuk, ia memiliki kecenderungan untuk menghasilkan dan menguji berjuta model alternatif hanya dengan parameterisasi secara menyeluruh semua algoritma di salah satu dari banyak kotak peralatan, diterapkan pada kumpulan data yang diarsipkan dengan cermat untuk memungkinkan beberapa pengujian tanpa terkendali. Masih terburuk masih dalam zaman kegelapan menggunakan akurasi, atau lebih buruk lagi ukuran-F, untuk evaluasi - daripada metode kebetulan-benar.

Saya telah membaca lusinan makalah tentang masalah ini, tetapi gagal menemukan sesuatu yang benar-benar meyakinkan - kecuali survei negatif atau makalah meta-analisis yang tampaknya menunjukkan bahwa sebagian besar peneliti tidak menangani dan menafsirkan statistik dengan benar sehubungan dengan standar "apa pun" ", lama atau baru. Kekuatan, beberapa pengujian, ukuran dan penghentian awal, interpretasi kesalahan standar dan interval kepercayaan, ... ini hanya beberapa masalah.

Tolong tembak saya - saya ingin terbukti salah! Dalam pandangan saya ada banyak air mandi, tetapi kami belum menemukan bayinya! Pada tahap ini tidak ada pandangan ekstrem atau pendekatan merek-merek yang tampak menjanjikan sebagai jawabannya, dan mereka yang ingin membuang segala sesuatu yang lain mungkin telah kehilangan bayinya.

David MW Powers
sumber
Ini bukan masalah menembak Anda, saya tidak berpikir bahwa BISA ada solusi untuk masalah ini. Kita adalah manusia yang mengenali pola di dunia, kita harus puas dengan validitas konvergen. Setelah upayanya yang buruk untuk membuktikan bahwa dewa itu ada, Descartes menolak validitas konvergen. Kadang-kadang itu ada, kadang-kadang tidak, tetapi kita kebanyakan hanya menghadapi kekuatan komputasi kognitif yang sangat kecil.
Indolering
1

Saya tidak percaya bahwa "aturan penghentian" opsional adalah istilah teknis dalam hal penghentian optimal. Namun, saya ragu bahwa Anda akan menemukan banyak diskusi mendalam tentang topik dalam buku teks statistik psikologi tingkat intro.

Alasan sinis untuk ini adalah bahwa semua siswa ilmu sosial memiliki keterampilan matematika yang lemah. Jawaban yang lebih baik, IMHO, adalah bahwa Uji-t sederhana tidak sesuai untuk sebagian besar eksperimen ilmu sosial. Kita harus melihat kekuatan efek dan mencari tahu apakah itu menyelesaikan perbedaan antara kelompok. Yang pertama dapat menunjukkan bahwa yang terakhir adalah mungkin tetapi hanya itu yang bisa dilakukan.

Ukuran pengeluaran kesejahteraan, regulasi negara, dan urbanisasi semuanya memiliki hubungan yang signifikan secara statistik dengan ukuran perilaku keagamaan. Namun, hanya menyatakan nilai-p membingkai tes dalam hubungan kausal semua atau tidak sama sekali. Lihat yang berikut ini:

masukkan deskripsi gambar di sini

Hasil dari pengeluaran untuk kesejahteraan dan urbanisasi memiliki nilai-p yang signifikan secara statistik tetapi pengeluaran untuk kesejahteraan jauh lebih berkorelasi kuat. Yang menghabiskan kesejahteraan acara seperti hubungan yang kuat untuk langkah-langkah lain dari religiusitas ( tingkat non-religius serta kenyamanan dalam agama ) yang urbanisasi bahkan tidak mencapai p-nilai < .10, menunjukkan bahwa urbanisasi tidak berdampak keyakinan agama umum. Namun, perlu diketahui bahwa bahkan pengeluaran untuk kesejahteraan tidak menjelaskan Irlandia atau Filipina, menunjukkan bahwa beberapa efek lain relatif lebih kuat daripada pengeluaran untuk kesejahteraan .

Mengandalkan "aturan berhenti" dapat mengarah pada hal positif yang salah, terutama dalam ukuran sampel psikologi yang kecil. Psikologi sebagai sebuah bidang benar-benar tertahan oleh semacam gangguan statistik ini. Namun, menempatkan semua kepercayaan kita pada nilai-p yang sewenang-wenang juga sangat bodoh. Bahkan jika kita semua mengirim sampel ukuran dan pernyataan hipotesis kami ke jurnal sebelum melakukan percobaan, kami masih akan mengalami kesalahan positif karena akademisi secara kolektif mencari signifikansi statistik.

Hal yang benar untuk dilakukan adalah tidak menghentikan penambangan data, hal yang benar untuk dilakukan adalah mendeskripsikan hasil sehubungan dengan efeknya . Teori dinilai tidak hanya oleh keakuratan prediksi mereka tetapi juga oleh kegunaan prediksi tersebut. Tidak peduli sebagus apa pun metodologi penelitiannya, obat yang memberikan peningkatan 1% pada gejala flu tidak sebanding dengan biaya untuk dimasukkan ke dalam kapsul.

Pembaruan Agar lebih jelas, saya sepenuhnya setuju bahwa para ilmuwan sosial harus memiliki standar yang lebih tinggi: kita perlu meningkatkan pendidikan, memberi para ilmuwan sosial alat yang lebih baik, dan meningkatkan level signifikansinya menjadi 3-sigma. Saya mencoba untuk menekankan titik yang kurang terwakili: sebagian besar studi psikologi tidak berharga karena ukuran efeknya sangat kecil.

Tetapi dengan Amazon Turk, saya dapat mengkompensasi dengan benar untuk menjalankan 10 studi parralel dan mempertahankan tingkat kepercayaan> 3-sigma dengan sangat murah. Tetapi jika kekuatan efeknya kecil, maka ada ancaman signifikan terhadap validitas eksternal. Efek manipulasi mungkin disebabkan oleh berita, atau urutan pertanyaan, atau ....

Saya tidak punya waktu untuk esai, tetapi masalah kualitas dalam ilmu sosial jauh melampaui metode statistik jelek.

Indolering
sumber
Saya mengerti ada beberapa perselisihan sosiologis (biasanya studi non-eksperimental) dan uji klinis di sini. Namun, kalimat pertama Anda tidak masuk akal: menghentikan aturan adalah bidang penelitian yang sangat besar dalam uji klinis. Alasan untuk ini adalah bahwa beberapa, hipotesis berkorelasi diuji secara berurutan adalah bagian dari rencana analisis yang ditentukan sebelumnya . Namun, tautan dalam pertanyaan OP bukanlah masalah matematika buruk, melainkan salah satu dari ilmu pengetahuan yang buruk. Melakukan beberapa uji statistik untuk "merasakan" analisis yang tepat dan berhenti ketika seseorang menemukan signifikansi adalah ilmu yang buruk tidak peduli bagaimana Anda memotongnya.
AdamO
@ AdamO saya setuju! Ketika saya menulis ini, saya adalah seorang mahasiswa yang mencoba menggunakan metode penambangan data dan ketika saya pergi untuk memastikan saya melakukan semuanya dengan benar (yang saya) reaksi awal yang saya dapatkan dari profesor dan ahli statistik adalah ... naif. Ironisnya, prosedur operasi standar untuk laboratorium ilmu sosial adalah menjalankan studi percontohan sampai mereka menemukan sesuatu yang menarik. Saya melakukan hal yang sama, tetapi sebenarnya mencoba untuk mengimbanginya: p
Indolering
0

Artikel yang Anda kutip tidak menyebutkan tentang menghentikan peraturan dan tampaknya tidak terlalu berpengaruh pada masalah yang dihadapi. Satu-satunya hubungan mereka yang sangat kecil adalah pengujian berganda yang merupakan konsep statistik , bukan konsep ilmiah.

Dalam literatur uji klinis, Anda akan menemukan bahwa aturan berhenti dibuat ketat dengan informasi eksplisit tentang kondisi di mana penelitian akan "terlihat": berdasarkan tahun kalender, atau pendaftaran orang-tahun, pengaturan tingkat alfa, dan juga terikat pada efek untuk perawatan "efektif" versus "berbahaya". Memang, kita harus melihat pada penelitian yang ketat seperti contoh sains yang dilakukan dengan baik . FDA bahkan akan melangkah lebih jauh dengan mengatakan, setelah menemukan kemanjuran yang signifikan selain yang ditentukan sebelumnya, percobaan kedua harus dilakukan untuk memvalidasi temuan ini. Ini masih menjadi masalah sehingga Thomas Flemming merekomendasikan bahwa semua studi klinis perludivalidasi dengan uji coba konfirmasi kedua yang sepenuhnya independen , yang dilakukan oleh entitas yang terpisah. Begitu buruknya masalah kesalahan positif palsu ketika mempertimbangkan kehidupan dan perawatan medis.

Dengan pengawasan yang tampaknya tidak berbahaya, bidang ilmu pengetahuan lain telah melanggengkan etika buruk dalam penelitian. Memang, ilmu sosial tidak mempengaruhi perawatan yang diterima orang, mereka berurusan dengan abstrak, dan model konseptual yang hanya meningkatkan pemahaman kita tentang interaksi teori dan observasi. Namun, setiap konsumen ilmu sosial, awam atau ilmiah, sering disajikan dengan temuan yang saling bertentangan: coklat baik untuk Anda, cokelat buruk untuk Anda (cokelat baik untuk Anda, omong-omong, gula dan lemakdalam cokelat itu buruk untukmu), seks itu baik untukmu, pernikahan membuatmu sedih / pernikahan membuatmu bahagia. Bidang ini lalai dengan ilmu yang buruk. Bahkan saya bersalah karena mengerjakan analisis di mana saya tidak senang dengan bahasa yang sangat kausal yang kemudian terkait dengan rekomendasi yang kuat tentang kebijakan dan dukungan federal, benar-benar tidak dapat dibenarkan dan belum dipublikasikan.

Artikel Simmons menjelaskan secara efektif, bagaimana pengungkapan akan membantu dalam membuat eksplisit jenis "pintasan" yang dibuat peneliti dalam studi sosial. Simmons memberikan dalam Tabel 1 contoh tentang bagaimana pengerukan data secara dramatis meningkatkan tingkat kesalahan positif palsu dengan cara yang khas dari ilmuwan "tidak etis mencari" temuan. Ringkasan temuan dalam Tabel 2 menggambarkan aspek-aspek yang sering dihilangkan dari artikel yang akan sangat membantu meningkatkan pemahaman tentang bagaimana mungkin lebih dari satu analisis dilakukan.

Untuk meringkas, menghentikan aturan hanya akan sesuai dengan hipotesis yang telah ditentukan: ini adalah etis dan memerlukan metode statistik. Artikel Simmons mengakui bahwa banyak penelitian bahkan tidak mengabulkannya, dan secara etis tidak sehat tetapi bahasa statistik memaksa mengapa itu salah.

AdamO
sumber
Saya tidak mengerti mengapa Anda akan mengatakan bahwa kertas yang dikutip memiliki sedikit pengaruh pada masalah yang dihadapi. Ini berisi bagian tajuk utama yang disebut "Melihat lebih dekat pada fleksibilitas dalam ukuran sampel" yang semuanya tentang penghentian opsional. Coba lihat lagi.
Michael Lew - mengembalikan Monica
@MichaelLew untuk merangkum jawabannya: menghentikan aturan harus dilakukan dengan uji klinis, rekrutmen, dan tindak lanjut tetapi menguji satu hipotesis yang telah ditentukan sebelumnya ini adalah praktik yang dapat diterima dalam penelitian untuk perangkat FDA dan agen terapi. Makalah Simmons membahas etika penelitian, kriteria, dan peretasan dalam penelitian dan akademisi kedokteran sosial. Bisakah Anda menggambarkan dengan lebih tepat bagaimana Anda melihat hubungannya? Mungkin Anda dapat mengedit posting Anda untuk mendefinisikan istilah dan memberikan referensi ke literatur lain, khususnya mengenai "aturan berhenti" yang AFAIK tidak ada di luar uji klinis.
AdamO
Saya juga tidak berpikir bahwa karakterisasi Anda "bidang ilmu pengetahuan lain telah mengabadikan etika yang buruk dalam penelitian" adalah adil atau membantu. Inti dari pertanyaan awal saya adalah bahwa tampaknya tidak ada alasan mengapa pengguna statistik paruh waktu bahkan akan menyadari masalah potensial yang timbul dari analisis sementara yang tidak diumumkan. Tidak adil menyebut ketidaktahuan itu tidak etis.
Michael Lew - mengembalikan Monica
@MichaelLew, apa yang Anda definisikan sebagai "analisis sementara"?
AdamO
Adam, saya tidak berpikir bahwa Anda benar dalam mengatakan bahwa "menghentikan aturan tidak ada di luar uji klinis". Mereka mungkin tidak sering disebutkan di luar uji klinis (lihat pertanyaan asli saya), tetapi mereka ada untuk setiap percobaan. Bahkan percobaan ukuran sampel tetap memiliki aturan penghentian 'melanjutkan sampai ukuran sampel tercapai'.
Michael Lew - mengembalikan Monica