Apakah mungkin untuk mengubah hipotesis agar sesuai dengan data yang diamati (alias ekspedisi memancing) dan menghindari peningkatan kesalahan Tipe I?

Sudah diketahui bahwa para peneliti harus menghabiskan waktu mengamati dan mengeksplorasi data dan penelitian yang ada sebelum membentuk hipotesis dan kemudian mengumpulkan data untuk menguji hipotesis itu (merujuk pada pengujian signifikansi null-hipotesis). Banyak buku statistik dasar memperingatkan bahwa hipotesis harus dibentuk secara apriori dan tidak dapat diubah setelah pengumpulan data jika tidak, metodologi menjadi tidak valid.

Saya memahami bahwa salah satu alasan mengapa mengubah hipotesis agar sesuai dengan data yang diamati bermasalah adalah karena kemungkinan lebih besar melakukan kesalahan tipe I karena data palsu, tetapi pertanyaan saya adalah: apakah itu satu - satunya alasan atau apakah ada masalah mendasar lainnya dengan menggunakan pada ekspedisi memancing?

Sebagai pertanyaan bonus, apakah ada cara untuk melakukan ekspedisi memancing tanpa mengekspos diri pada potensi jebakan? Misalnya, jika Anda memiliki cukup data, dapatkah Anda menghasilkan hipotesis dari setengah data dan kemudian menggunakan setengah lainnya untuk mengujinya?

memperbarui

Saya menghargai ketertarikan pada pertanyaan saya, tetapi jawaban dan komentarnya sebagian besar ditujukan pada apa yang saya pikir telah saya tegaskan sebagai informasi latar belakang. Saya tertarik untuk mengetahui apakah ada alasan lain mengapa itu buruk di luar kemungkinan hasil palsu yang lebih tinggi dan jika ada cara, seperti memisahkan data terlebih dahulu, mengubah hipotesis post hoc tetapi menghindari peningkatan kesalahan Tipe I.

Saya telah memperbarui judulnya dengan harapan mencerminkan pertanyaan saya.

Terima kasih, dan maaf atas kebingungannya!

hypothesis-testing pasca-hoc
sumber

Baca ini: people.psych.cornell.edu/~jec7/pcd%20pubs/simmonsetal11.pdf

jona

Mengambil sudut pandang lain tentang apa yang telah dikatakan: Inti dari metode ilmiah adalah membuat hipotesis dan kemudian mencoba memalsukannya agar dapat menjadi teori (jika pemalsuan gagal). Melakukan ekspedisi memancing adalah cara yang valid untuk menemukan hipotesis yang layak dipalsukan dalam percobaan berikutnya, tetapi Anda tidak pernah bisa membuat dan mencoba memalsukan hipotesis dalam sekali jalan. Khususnya, jika Anda terbuka untuk menyesuaikan hipotesis Anda, Anda tidak mencoba memalsukannya lagi. Sebaliknya, ketika Anda menyesuaikan, Anda memalsukan hipotesis Anda yang tidak disesuaikan dan membentuk hipotesis baru.

Wrzlprmft

@Jona, itu kertas yang bagus. Saya sudah membaca makalah oleh Ioannidis dan Schooler, tetapi Simmons dkk menggambarkan masalah dengan luar biasa.

post-hoc

Saya ingin tahu apakah Anda juga akan menemukan makalah ini relevan dengan pertanyaan Anda: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . Ini tidak persis pada subjek yang sama, tetapi membahas satu aspek dari itu.

a11msp

Data dapat menyebabkan Anda mengubah hipotesis Anda ... tetapi dalam hal ini Anda perlu mulai mengumpulkan data baru dari awal untuk mengkonfirmasi hipotesis baru.

keshlam

Jawaban:

Tentu saja Anda dapat pergi ekspedisi memancing, selama Anda mengakui bahwa itu ekspedisi memancing dan memperlakukannya seperti itu. Nama yang lebih bagus untuk itu adalah "analisis data eksplorasi".

Analogi yang lebih baik mungkin menembaki target:

Anda dapat menembak target dan merayakannya jika Anda menyentuh sasaran.

Anda dapat menembak tanpa target untuk menguji properti pistol Anda.

Tapi itu curang untuk menembak dinding dan kemudian melukis target di sekitar lubang peluru.

Salah satu cara untuk menghindari beberapa masalah dengan ini adalah dengan melakukan eksplorasi dalam set data pelatihan dan kemudian mengujinya pada set data "tes" terpisah.

Peter Flom - Pasang kembali Monica
sumber

Sulit untuk memperbaiki jawaban Peter. Masalah yang disayangkan dengan banyak pengerukan data adalah kurangnya pengakuan oleh penulis bahwa hipotesis tidak sepenuhnya ditentukan sebelumnya, yaitu, tidak menggunakan istilah 'eksplorasi'. Banyak, banyak peneliti mengeruk data untuk mendapatkan kertas yang dapat diterbitkan dan tidak menindaklanjuti dengan upaya validasi (yang sering mengecewakan mereka).

Frank Harrell

Mengambil komentar Frank Harrell selangkah lebih maju: adalah sah untuk mengeksplorasi beberapa data dan mempublikasikan temuan yang menarik ... sebagai temuan yang menarik, eksplorasi yang dapat direproduksi / divalidasi. Kelemahannya adalah: jika orang lain mengkonfirmasi temuan Anda, mereka mungkin akan mendapatkan kejayaan, dan jika orang lain tidak mengkonfirmasi hasil Anda, Anda dibodohi oleh korelasi palsu. Buruk jika Anda memiliki ego yang besar. Belum lagi Anda perlu membuat data dan prosedur Anda tersedia untuk umum, yang tidak dilakukan banyak praktisi di banyak bidang. Dan Anda harus menindaklanjuti dengan data baru daripada melanjutkan.

Wayne

+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.

WernerCD

@ post-hoc yah, seharusnya tidak menaikkan alis, tapi mungkin saja. Tergantung pada mata siapa yang ada di bawah alis!

Peter Flom - Kembalikan Monica

Texas Sharpshooter Fallacy ..

smci

Masalah dengan ekspedisi memancing adalah ini: jika Anda menguji hipotesis yang cukup, salah satunya akan dikonfirmasi dengan nilai p rendah. Biarkan saya memberi contoh nyata.

Bayangkan Anda melakukan penelitian epidemiologis. Anda telah menemukan 1000 pasien yang menderita kondisi langka. Anda ingin tahu kesamaan apa yang mereka miliki. Jadi, Anda mulai menguji - Anda ingin melihat apakah suatu karakteristik tertentu terwakili secara berlebihan dalam sampel ini. Awalnya Anda menguji jenis kelamin, ras, riwayat keluarga terkait tertentu (ayah meninggal karena penyakit jantung sebelum usia 50, ...) tetapi akhirnya, ketika Anda mengalami kesulitan menemukan apa pun yang "melekat", Anda mulai menambahkan semua jenis faktor lain yang hanya mungkin berhubungan dengan penyakit:

adalah vegetarian
telah melakukan perjalanan ke Kanada
selesai kuliah
sudah menikah
punya anak
memiliki kucing
punya anjing
minum setidaknya 5 gelas anggur merah per minggu
...

Sekarang ini masalahnya. Jika saya memilih hipotesis "acak" yang cukup, mulai menjadi kemungkinan bahwa setidaknya satu dari ini akan menghasilkan nilai p kurang dari 0,05 - karena esensi dari nilai p adalah "kemungkinan salah untuk menolak hipotesis nol ketika ada tidak ada efek ". Secara berbeda - rata-rata, untuk setiap 20 hipotesis palsu yang Anda uji, salah satunya akan memberi Anda p <0,05 .

Ini sangat baik dirangkum dalam kartun XKCD http://xkcd.com/882/ :

masukkan deskripsi gambar di sini

Tragisnya adalah bahwa bahkan jika seorang penulis individu tidak melakukan 20 tes hipotesis berbeda pada sampel untuk mencari signifikansi, mungkin ada 19 penulis lain melakukan hal yang sama; dan orang yang "menemukan" korelasi sekarang memiliki makalah yang menarik untuk ditulis, dan orang yang kemungkinan akan diterima untuk publikasi ...

Ini mengarah pada kecenderungan yang tidak menguntungkan untuk temuan yang tidak dapat diproduksi kembali. Cara terbaik untuk mencegah hal ini sebagai penulis individu adalah dengan menetapkan standar lebih tinggi. Alih-alih menguji faktor individual, tanyakan pada diri Anda "jika saya menguji hipotesis N, berapa probabilitas untuk mendapatkan setidaknya satu false positive". Ketika Anda benar-benar menguji "hipotesis memancing", Anda bisa berpikir untuk membuat koreksi Bonferroni untuk mencegah hal ini - tetapi orang sering tidak.

Ada beberapa makalah yang menarik oleh Dr. Ioannides - diprofilkan dalam Atlantic Monthly khusus tentang hal ini.

Lihat juga pertanyaan sebelumnya dengan beberapa jawaban mendalam.

perbarui untuk merespons semua aspek pertanyaan Anda dengan lebih baik:

Jika Anda takut menjadi "penangkap ikan", tetapi Anda benar-benar tidak tahu hipotesis apa yang harus dirumuskan, Anda pasti dapat membagi data dalam bagian "eksplorasi", "replikasi", dan "konfirmasi". Pada prinsipnya ini harus membatasi eksposur Anda pada risiko yang diuraikan sebelumnya: jika Anda memiliki nilai p 0,05 dalam data eksplorasi dan Anda mendapatkan nilai yang sama dalam data replikasi dan konfirmasi, risiko Anda jatuh salah. Contoh yang bagus dari "melakukannya dengan benar" ditunjukkan dalam British Medical Journal (publikasi yang sangat dihormati dengan Faktor Dampak 17+)

Eksplorasi dan konfirmasi faktor yang terkait dengan kehamilan tanpa komplikasi pada wanita nulipara: studi kohort prospektif, Chappell et al

Inilah paragraf yang relevan:

Kami membagi dataset dari 5.288 wanita menjadi tiga bagian: dataset eksplorasi dua pertiga wanita dari Australia dan Selandia Baru, dipilih secara acak (n = 2129); dataset replikasi lokal dari sepertiga wanita tersisa dari Australia dan Selandia Baru (n = 1067); dan set data konfirmasi eksternal yang berbeda secara geografis dari 2432 wanita Eropa dari Inggris dan Republik Irlandia.

Kembali sedikit dalam literatur, ada makalah yang bagus oleh Altman et al berjudul "Prognosis dan penelitian prognostik: memvalidasi model prognostik" yang masuk jauh lebih dalam, dan menyarankan cara untuk memastikan Anda tidak jatuh ke dalam kesalahan ini. "Poin utama" dari artikel:

Model yang tidak divalidasi tidak boleh digunakan dalam praktik klinis. Ketika memvalidasi model prognostik, kalibrasi dan diskriminasi harus dievaluasi. Validasi harus dilakukan pada data yang berbeda dari yang digunakan untuk mengembangkan model, lebih disukai dari pasien di pusat-pusat lain. Model mungkin tidak berkinerja baik dalam praktik. karena kekurangan dalam metode pengembangan atau karena sampel baru terlalu berbeda dari aslinya

Perhatikan secara khusus saran bahwa validasi dilakukan (saya parafrase) dengan data dari sumber lain - yaitu tidak cukup untuk membagi data Anda secara sewenang-wenang menjadi subset, tetapi Anda harus melakukan apa yang Anda bisa untuk membuktikan bahwa "belajar" pada set dari satu set eksperimen dapat diterapkan ke data dari serangkaian eksperimen yang berbeda. Itu bar yang lebih tinggi, tetapi lebih lanjut mengurangi risiko bahwa bias sistematis dalam pengaturan Anda menciptakan "hasil" yang tidak dapat diverifikasi secara independen.

Ini topik yang sangat penting - terima kasih telah mengajukan pertanyaan!

Floris
sumber

Ini mengingatkan saya pada: xkcd.com/882

Jens

@ jens - itu adalah penjelasan yang jauh lebih fasih dari yang saya berikan ... Terima kasih atas tautannya. Seperti biasa - lakukan arahkan mouse Anda ke atas kartun untuk zinger kecil.

Floris

Artikel Ioannides dan Lehrer adalah jalan yang membawaku ke sini. Contoh Anda mirip dengan contoh dalam Simmons et al yang disebutkan oleh @jona. Ini adalah cara yang sangat baik untuk menjelaskan kemungkinan peningkatan kesalahan Tipe I, tetapi apakah ada alasan lain mengapa itu buruk?

post-hoc

Masalah dengan pengerukan data secara umum adalah Anda berisiko mengacaukan "korelasi" dengan "penyebab". Dengan mengajukan hipotesis yang masuk akal terlebih dahulu , kemudian mengonfirmasi bahwa itu membantu menjelaskan pengamatan, Anda membatasi risiko membingungkan keduanya. "Big Data" sering berjalan sebaliknya - modus operandi mereka adalah "jika saya menganalisis data yang cukup saya akan melihat pola yang berlaku di masa lalu dan yang akan terus bertahan di masa depan". Terkadang berhasil, kadang tidak. Statistik seharusnya tidak menjadi pengganti pemikiran dan pemahaman - hanya sebuah konfirmasi .

Floris

Saya tidak berpikir masalah utama adalah korelasi vs sebab-akibat. Mudah untuk melakukan analisis korelasional yang buruk hanya untuk menemukan bahwa asosiasi tidak mereplikasi.

Frank Harrell

Pertanyaannya menanyakan apakah ada masalah lain selain inflasi kesalahan tipe I yang datang dengan ekspedisi penangkapan ikan.

$0$

gung - Pasang kembali Monica
sumber