Data "eksplorasi" vs data "mengintai" / "menyiksa"?

30

Sering kali saya menemukan peringatan informal terhadap "pengintaian data" (inilah salah satu contoh yang lucu ), dan saya pikir saya memiliki ide intuitif tentang kira-kira apa artinya itu, dan mengapa itu mungkin menjadi masalah.

Di sisi lain, "analisis data eksplorasi" tampaknya menjadi prosedur yang sangat terhormat dalam statistik, setidaknya dinilai oleh fakta bahwa sebuah buku dengan judul itu masih disebut sebagai buku klasik.

Dalam pekerjaan saya, saya sering menemukan apa yang bagi saya tampak seperti "data snooping" yang merajalela, atau mungkin akan lebih baik digambarkan sebagai " penyiksaan data ", meskipun mereka yang melakukannya tampaknya melihat aktivitas yang sama dengan eksplorasi yang sepenuhnya masuk akal dan tidak bermasalah "eksplorasi" ".

Inilah skenario tipikal: eksperimen mahal dilakukan (tanpa banyak pemikiran diberikan untuk analisis selanjutnya), para peneliti asli tidak dapat dengan mudah melihat "cerita" dalam data yang dikumpulkan, seseorang dibawa masuk untuk menerapkan beberapa "sihir statistik", dan siapa yang , setelah mengiris dan mencelupkan data ke segala arah, akhirnya berhasil mengekstraksi beberapa "cerita" yang dapat diterbitkan darinya.

Tentu saja, biasanya ada beberapa "validasi" yang dilemparkan ke dalam laporan akhir / makalah untuk menunjukkan bahwa analisis statistik sedang naik-turun, tetapi sikap menerbitkan dengan biaya apa pun di balik itu semua membuat saya ragu.

Sayangnya, pemahaman saya yang terbatas tentang hal yang harus dan yang tidak boleh dilakukan dalam analisis data membuat saya melampaui keraguan yang samar-samar, jadi respons konservatif saya pada dasarnya mengabaikan temuan semacam itu.

Harapan saya adalah bahwa tidak hanya pemahaman yang lebih baik tentang perbedaan antara eksplorasi dan pengintaian / penyiksaan, tetapi juga, dan yang lebih penting, pemahaman yang lebih baik tentang prinsip-prinsip dan teknik untuk mendeteksi ketika garis itu dilintasi, akan memungkinkan saya untuk mengevaluasi temuan-temuan tersebut di sebuah cara yang bisa masuk akal untuk prosedur analitik yang kurang optimal, dan dengan demikian dapat melampaui tanggapan saya saat ini yang agak sederhana tentang ketidakpercayaan selimut.


EDIT: Terima kasih semua atas komentar dan jawaban yang sangat menarik. Menilai dari konten mereka, saya pikir saya mungkin belum menjelaskan pertanyaan saya dengan cukup baik. Saya harap pembaruan ini akan mengklarifikasi masalah.

Pertanyaan saya di sini menyangkut bukan apa yang harus saya lakukan untuk menghindari menyiksa data saya (meskipun ini adalah pertanyaan yang juga menarik minat saya), tetapi lebih: bagaimana saya harus menganggap (atau mengevaluasi) hasil yang saya tahu benar-benar telah dicapai melalui "penyiksaan data."

Situasi semakin menarik dalam kasus-kasus (yang lebih jarang) di mana, di samping itu, saya berada dalam posisi untuk menyuarakan pendapat tentang "temuan" tersebut sebelum mereka diajukan untuk dipublikasikan.

Pada titik ini yang paling bisa saya lakukan adalah mengatakan sesuatu seperti, "Saya tidak tahu berapa banyak kepercayaan yang dapat saya berikan untuk temuan-temuan ini, mengingat apa yang saya ketahui tentang asumsi dan prosedur yang digunakan untuk mendapatkannya." Ini terlalu tidak jelas untuk dikatakan. Ingin melampaui ketidakjelasan seperti itu adalah motivasi untuk jabatan saya.

Agar adil, keraguan saya di sini didasarkan pada lebih dari metode statistik yang tampaknya dipertanyakan. Bahkan, saya melihat yang terakhir sebagai konsekuensi dari masalah yang lebih dalam: kombinasi sikap angkuh terhadap desain eksperimental ditambah dengan komitmen kategoris untuk menerbitkan hasil saat mereka berdiri (yaitu tanpa eksperimen lebih lanjut). Tentu saja, proyek tindak lanjut selalu dibayangkan, tetapi itu hanya keluar dari pertanyaan bahwa tidak ada satu kertas pun akan keluar, katakanlah, "kulkas diisi dengan 100.000 sampel."

Statistik muncul hanya sebagai sarana untuk memenuhi tujuan tertinggi ini. Satu-satunya pembenaran untuk menggunakan statistik (sekunder seperti dalam keseluruhan skenario) adalah bahwa tantangan langsung terhadap asumsi "publikasi dengan segala cara" tidak ada gunanya.

Bahkan, saya hanya dapat memikirkan satu respons efektif dalam situasi seperti itu: mengusulkan beberapa uji statistik (tidak memerlukan eksperimen tambahan) yang benar-benar menguji kualitas analisis. Tapi saya tidak punya daging dalam statistik untuk itu. Harapan saya (naif dalam retrospeksi) adalah untuk mencari tahu apa yang dapat saya pelajari yang memungkinkan saya untuk datang dengan tes seperti itu ...

Ketika saya menulis ini, saya baru sadar bahwa, jika belum ada, dunia dapat menggunakan satu cabang pembantu statistik baru, yang dikhususkan untuk teknik mendeteksi dan menyingkap "penyiksaan data". (Tentu saja, saya tidak bermaksud terbawa oleh metafora "penyiksaan": masalahnya bukan "penyiksaan data" per-se, tetapi "temuan" palsu itu dapat menyebabkannya.)

kjo
sumber
1
@BabakP Kutipan itu muncul dalam enam jawaban di sini, termasuk dalam lelucon statistik dan utas kutipan statistik. (Yang terakhir adalah sumber yang baik untuk kutipan yang relevan jika Anda pernah memburu beberapa.)
whuber
7
Saya tidak berpikir ada perbedaan antara teknik yang digunakan dalam 'mengintai data' & dalam 'analisis data eksplorasi' - penggunaan menghina istilah sebelumnya adalah untuk analisis eksplorasi yang menyesatkan disajikan sebagai analisis konfirmasi.
Scortchi
8
Feynman, dalam buku yang Anda referensi, sudah menjawab pertanyaan ini: "Jika dia ingin menguji hipotesis ini [ditemukan melalui eksplorasi], ... dia harus melakukan percobaan lain." Apa yang Anda tanyakan mengenai apakah Feynman mungkin terlalu ekstrem ("melebih-lebihkan sedikit"): sampai sejauh mana, jika sama sekali, dapatkah pengujian hipotesis formal dibenarkan ketika dikembangkan dengan mengeksplorasi data yang sama ?
Whuber
2
@whuber: dalam praktiknya bahkan lebih dramatis, karena sering menguji dengan data yang berbeda, tetapi pengaturan eksperimental yang sama atau jenis eksperimen secara tidak sengaja akan menghasilkan hasil yang serupa.
Januari
1
@ Januari: tergantung pada data / percobaan saya, saya kira. Pertimbangkan misalnya penelitian biologi / medis. Untuk data yang saya lihat, variasi terbesar biasanya antara pasien (subyek). Mengulangi percobaan dengan pasien baru diharapkan akan menghasilkan hasil yang serupa, tetapi dalam praktiknya hal ini sering tidak terjadi (yaitu hasil prediksi model yang dikembangkan pada set pertama pasien jauh lebih buruk dari yang diharapkan, yang berarti bahwa overfitting terjadi, sehingga data dalam percobaan pertama "disiksa")
cbeleites mendukung Monica

Jawaban:

22

Ada perbedaan yang kadang-kadang tidak mendapatkan perhatian yang cukup, yaitu generasi hipotesis vs pengujian hipotesis , atau analisis eksplorasi vs pengujian hipotesis. Anda diizinkan semua trik kotor di dunia untuk menghasilkan ide / hipotesis Anda. Tetapi ketika Anda kemudian mengujinya, Anda harus dengan kejam membunuh kesayangan Anda.

Saya seorang ahli biologi yang bekerja dengan data throughput tinggi sepanjang waktu, dan ya, saya sering melakukan "slicing and dicing" ini. Sebagian besar kasus percobaan yang dilakukan tidak dirancang dengan hati-hati; atau mungkin mereka yang merencanakannya tidak memperhitungkan semua kemungkinan hasil. Atau sikap umum ketika perencanaan adalah "mari kita lihat apa yang ada di sana". Kita berakhir dengan set data yang mahal, berharga, dan dalam diri mereka sendiri menarik yang kemudian saya putar dan putar untuk menghasilkan sebuah cerita.

Tapi kemudian, itu hanya cerita (mungkin waktu tidur). Setelah Anda memilih beberapa sudut yang menarik - dan di sini adalah titik krusial - Anda harus mengujinya tidak hanya dengan set data independen atau sampel independen, tetapi lebih disukai dengan pendekatan independen , sistem eksperimental independen.

Pentingnya hal terakhir ini - pengaturan eksperimental independen, tidak hanya seperangkat pengukuran atau sampel independen - sering diremehkan. Namun, ketika kami menguji 30.000 variabel untuk perbedaan yang signifikan, sering terjadi bahwa sementara sampel yang sama (tetapi berbeda) dari kohort yang sama dan dianalisis dengan metode yang sama tidak akan menolak hipotesis kami berdasarkan pada set sebelumnya. Tetapi kemudian kita beralih ke jenis percobaan lain dan kelompok lain, dan temuan kami ternyata merupakan hasil dari bias metodologis atau terbatas dalam penerapannya.

Itulah sebabnya kita sering membutuhkan beberapa makalah oleh beberapa peneliti independen untuk benar-benar menerima hipotesis atau model.

Jadi saya pikir penyiksaan data seperti itu baik-baik saja, selama Anda mengingat perbedaan ini dan mengingat apa yang Anda lakukan, pada tahap proses ilmiah apa Anda. Anda dapat menggunakan fase bulan atau mendefinisikan ulang 2 + 2 selama Anda memiliki validasi data yang independen . Untuk meletakkannya di gambar:

masukkan deskripsi gambar di sini

Sayangnya, ada orang yang memesan microarray untuk mengumpulkan kertas setelah beberapa percobaan dilakukan dan tidak ada cerita yang muncul, dengan harapan bahwa analisis throughput yang tinggi menunjukkan sesuatu. Atau mereka bingung tentang keseluruhan pengujian hipotesis vs hal generasi.

Januari
sumber
Saya kira seseorang dapat menafsirkan apa yang saya lihat sebagai "generasi hipotesis", tetapi tujuan manipulasi yang saya bicarakan adalah paling pasti untuk mempublikasikan hasil yang diperoleh dari data "disiksa", dan untuk melakukannya di tertinggi -Apa jurnal yang akan menerima makalah. Tidak perlu dikatakan, makalah seperti itu tidak pernah membawa saran tentang asal usul temuan mereka yang disiksa. Bahkan, AFAICT, penulis sama sekali tidak terganggu dengan ini. Namun, saya pikir sebagian besar pembaca surat kabar seperti itu akan sangat mengurangi temuan jika mereka tahu persis berapa banyak data yang disiksa untuk mendapatkan mereka ...
kjo
1
@ kjo: pembuatan hipotesis adalah bagian dari proses ilmiah yang secara definitif dapat dipublikasikan. Jadi itu bukan alasan.
cbeleites mendukung Monica
@ January: Anda lupa menyebutkan DoE "ambil semua sampel yang bisa kami dapatkan - mereka akan terlalu sedikit" - yang merupakan DoE paling sering saya temui.
cbeleites mendukung Monica
@cbeleites: well, saya tidak akan bermimpi mengkritik sikap ini secara umum; biasanya percobaan bisa mendapatkan keuntungan dari jumlah ulangan yang lebih besar. Tetapi saya setuju bahwa seringkali para eksperimentalis cenderung memasukkan sebanyak mungkin kondisi (tipe sampel, strain, varian, kelas, dll.) Hanya secara fisik mungkin, menjadikan analisis sebagai mimpi buruk dan kadang-kadang sama sekali mengaburkan pertanyaan.
Januari
12

Herman Friedman, profesor favorit saya di sekolah pascasarjana, biasa mengatakan itu

"Jika kamu tidak terkejut, kamu belum belajar apa-apa"

Penghindaran yang ketat terhadap apa pun kecuali pengujian yang paling ketat terhadap hipotesis yang ditentukan apriori sangat membatasi kemampuan Anda untuk terkejut.

Saya pikir kuncinya adalah kita jujur tentang apa yang kita lakukan. Jika kita berada dalam mode yang sangat eksploratif, kita harus mengatakannya. Sebaliknya, seorang profesor yang saya kenal mengatakan kepada muridnya untuk mengubah hipotesisnya karena yang asli tidak ditemukan signifikan.

Peter Flom - Pasang kembali Monica
sumber
4
Tidak ada yang salah dengan menguji secara ketat hipotesis yang ditentukan apriori dan mengintai data yang sama untuk menyarankan hipotesis yang ditentukan apriori berikutnya untuk diuji secara ketat. Dan jika kita berada dalam mode eksplorasi yang bahkan sedikit, kita harus mengatakannya - katakan saja apa yang sebenarnya kita lakukan - & biarkan orang lain memutuskan dengan tepat berapa banyak garam yang mereka inginkan untuk mengambil hasil kita, betapapun yakin dengan validitasnya kita mungkin diri. Saya ingin memberikan jawaban ini lebih dari satu suara untuk menekankan kejujuran.
Scortchi
7

Biarkan saya menambahkan beberapa poin:

  • pertama-tama, generasi hipotesis adalah bagian penting dari sains. Dan hasil non-prediktif (eksplorasi / deskriptif) dapat dipublikasikan.

  • IMHO masalahnya bukan semata-mata karena eksplorasi data digunakan pada kumpulan data dan hanya sebagian dari temuan itu yang dipublikasikan. Masalahnya adalah

    • tidak menggambarkan berapa banyak yang telah dicoba
    • kemudian menarik kesimpulan seolah-olah penelitian ini adalah studi validasi untuk beberapa model prediktif / studi pengujian hipotesis
  • Pengembangan sains dan metode adalah proses berulang dalam cara yang jauh lebih umum daripada hanya pembuatan hipotesis - pengujian - menghasilkan hipotesis baru - pengujian .... IMHO itu adalah masalah penilaian profesional seperti apa perilaku yang tepat diperlukan pada tahap apa (lihat contoh di bawah).

Apa yang saya lakukan:

  • mencoba untuk membuat orang sadar akan bias optimis yang dihasilkan
    Ketika saya memiliki kesempatan, saya juga menunjukkan kepada orang-orang berapa banyak perbedaan yang membuat (layak sebagian besar dengan tingkat yang lebih rendah dari masalah yang sama, misalnya membandingkan data yang divalidasi pasien-independen dengan kinerja internal perkiraan rutin optimasi parameter-hiper, seperti pencarian grid untuk SVM paraters, "model gabungan" seperti PCA-LDA, dan sebagainya. Tidak benar-benar layak untuk pengerukan data nyata, karena sejauh ini, tidak ada yang memberi saya uang untuk menghasilkan ulangan sebenarnya dari penelitian berukuran masuk akal ...)
  • untuk makalah yang saya penulis bersama: bersikeras diskusi tentang keterbatasan kesimpulan. Pastikan kesimpulan tidak dirumuskan dengan cara yang lebih umum daripada yang dibolehkan penelitian.
  • Dorong rekan kerja untuk menggunakan pengetahuan ahli mereka tentang subjek penelitian dan proses pembuatan data untuk memutuskan bagaimana memperlakukan data alih-alih berkinerja mahal (dalam hal ukuran sampel yang perlu Anda lakukan dengan benar) optimalisasi dari model- "hyper" -parameters (seperti jenis pra-pemrosesan yang digunakan).
  • secara paralel: cobalah membuat orang sadar betapa mahal bisnis optimasi ini jika dilakukan dengan benar (apakah ini disebut eksplorasi atau tidak tidak relevan, jika dilakukan secara salah, ia akan memiliki hasil yang sama seperti pengerukan data), misalnya Beleites, C. dan Neugebauer , U. dan Bocklitz, T. dan Krafft, C. dan Popp, J .: Perencanaan ukuran sampel untuk model klasifikasi. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
    naskah diterima di arXiv: 1211.1323
  • Berikut sebuah studi yang menemukan bahwa kebutaan ini juga sering sia-sia, misalnya
    J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: Memutuskan tren dalam pra-pemrosesan ?, Trac Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
    (mereka mencoba sejumlah besar kombinasi langkah pra-pemrosesan dan menemukan bahwa sangat sedikit yang mengarah ke model yang lebih baik daripada tidak ada pra-pemrosesan sama sekali)

  • Tekankan bahwa saya tidak menyiksa data saya lebih dari yang diperlukan:
    contoh :

    Semua preprocessing diputuskan secara eksklusif menggunakan pengetahuan spektroskopi, dan tidak ada preprocessing berbasis data yang dilakukan.

    Sebuah tindak lanjut kertas menggunakan data yang sama sebagai contoh bagi (yang berbeda) pengembangan teori berbunyi

    Semua pra-pemrosesan diputuskan oleh pengetahuan spektroskopi, tidak ada langkah berbasis data yang dimasukkan dan tidak ada optimasi parameter yang dilakukan. Namun, kami memeriksa bahwa proyeksi PLS [45] dari spektrum ke 25 variabel laten karena pra-pemrosesan untuk pelatihan LR tidak menyebabkan lebih dari sedikit perubahan dalam prediksi (lihat gambar tambahan S.2).

    Karena sementara itu saya secara eksplisit diminta (pada konferensi oleh editor jurnal CILS) untuk membandingkan model dengan pra-pemrosesan PLS.

  • Ambil sudut pandang praktis: Misalnya dalam studi astrositoma yang terkait di atas, tentu saja saya masih memutuskan beberapa poin setelah melihat data (seperti apa ambang batas intensitas yang sesuai dengan pengukuran yang diambil dari luar sampel - yang kemudian dibuang). Keputusan lain yang saya tahu tidak kritis (linier vs kuadratik: pengalaman saya dengan tipe data itu menunjukkan bahwa ini sebenarnya tidak banyak berubah - yang juga sesuai dengan apa yang ditemukan Jasper Engel pada data berbeda dengan tipe yang sama, jadi Saya tidak akan mengharapkan bias besar datang dari memutuskan jenis baseline dengan melihat data (makalah ini memberikan argumen mengapa itu masuk akal).
    Berdasarkan penelitian yang kami lakukan, kami sekarang dapat mengatakan apa yang harus ditangani selanjutnya dan apa yang harus diubah. Dan karena kita masih dalam tahap pengembangan metode yang relatif awal (melihat sampel ex-vivo ), tidak ada gunanya untuk menjalani semua "pekerjaan rumah" yang pada akhirnya akan diperlukan sebelum metode tersebut dapat digunakan in-vivo . Misalnya pada tahap sekarang penilaian astrositoma, validasi resampling adalah pilihan yang lebih masuk akal daripada set tes eksternal. Saya masih menekankan bahwa studi validasi eksternal yang benar-benar diperlukan di beberapa titik, karena beberapa karakteristik kinerja hanya dapat diukur dengan cara itu (misalnya efek dari instrumen melayang / membuktikan bahwa kita dapat memperbaikinya). Tapi saat ini kami masih bermain dengan ex-vivosampel dan memecahkan bagian lain dari masalah besar (dalam makalah terkait: bagaimana menangani kasus batas), keuntungan dalam pengetahuan yang berguna dari studi validasi ex-vivo yang tepat terlalu rendah untuk bernilai saat upaya (IMHO: kecuali yang dilakukan untuk mengukur bias karena pengerukan data).

  • Saya pernah membaca argumen tentang standar statistik dan pelaporan, dan apakah itu harus diputuskan diperlukan untuk jurnal (tidak ingat yang mana) yang meyakinkan saya: ide yang dikemukakan di sana adalah bahwa tidak perlu bagi editor untuk mencoba menyetujui dan menegakkan beberapa standar (yang akan menyebabkan banyak diskusi yang sia-sia) karena:

    • yang menggunakan teknik yang tepat biasanya sangat sadar / bangga akan hal itu dan akan (dan harus) melaporkan secara rinci apa yang telah dilakukan.
    • Jika titik tertentu (misalnya pengerukan data, validasi tidak independen pada tingkat pasien) tidak dijabarkan dengan jelas, asumsi default untuk pengulas / pembaca adalah bahwa penelitian ini tidak mematuhi prinsip-prinsip yang tepat dalam pertanyaan itu (mungkin karena mereka tidak t tahu lebih baik)
Cbeleites mendukung Monica
sumber
4

Terkadang hal-hal yang Anda lihat sebagai "penyiksaan data" tidak benar-benar. Tidak selalu jelas sebelumnya apa yang akan Anda lakukan dengan data untuk memberikan apa yang Anda yakini sebagai hasil asli dari eksperimen sampai Anda melihatnya.

Misalnya, dengan data waktu reaksi untuk tugas keputusan, Anda sering ingin menolak waktu yang bukan tentang keputusan (yaitu, ketika mereka berjalan begitu cepat mereka jelas hanya menebak dan tidak membuat keputusan). Anda dapat merencanakan akurasi keputusan terhadap RT untuk melihat di mana tebakan umumnya terjadi. Tetapi sampai Anda telah menguji paradigma tertentu, Anda tidak memiliki cara untuk mengetahui di mana cutoff berada (dalam waktu, bukan keakuratan). Bagi beberapa pengamat, prosedur seperti itu tampak seperti menyiksa data, tetapi selama itu tidak ada hubungannya langsung dengan tes hipotesis (Anda tidak menyesuaikannya berdasarkan tes), maka itu tidak menyiksa data.

Mengintai data selama percobaan tidak masalah selama itu dilakukan dengan cara yang benar. Mungkin tidak etis untuk memasukkan eksperimen Anda ke dalam kotak hitam dan hanya melakukan analisis ketika jumlah subyek yang direncanakan telah dijalankan. Terkadang sulit untuk mengatakan bahwa ada masalah dengan eksperimen sampai Anda melihat data dan Anda harus melihat beberapa sesegera mungkin. Mengintip data sangat diremehkan karena disamakan dengan melihat apakah p <0,05 dan memutuskan untuk melanjutkan. Tetapi ada banyak kriteria dimana Anda dapat memutuskan untuk terus mengumpulkan yang tidak melakukan apa pun yang merusak tingkat kesalahan Anda.

Katakanlah Anda ingin memastikan bahwa estimasi varians Anda berada dalam kisaran kemungkinan yang diketahui. Sampel kecil dapat memiliki estimasi varians yang cukup jauh sehingga Anda mengumpulkan data tambahan hingga Anda tahu sampelnya lebih representatif. Dalam simulasi berikut ini saya mengharapkan varians dalam setiap kondisi menjadi 1. Saya akan melakukan sesuatu yang benar-benar gila dan sampel masing-masing kelompok secara mandiri untuk 10 sampel dan kemudian menambahkan subjek sampai varians mendekati 1.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Jadi, saya baru saja menjadi gila dengan sampling dan membuat varians saya mendekati yang diharapkan dan saya masih tidak banyak mempengaruhi alpha (sedikit di bawah 0,05). Beberapa kendala lagi seperti N harus sama di setiap kelompok dan tidak boleh lebih dari 30 dan alpha cukup tepat pada 0,05. Tapi bagaimana dengan SE? Bagaimana jika saya malah mencoba menjadikan SE sebagai nilai yang diberikan? Itu sebenarnya ide yang sangat menarik karena saya pada gilirannya mengatur lebar CI di muka (tetapi bukan lokasi).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Sekali lagi, alpha mengubah sejumlah kecil meskipun saya telah memungkinkan N untuk menjelajah hingga 46 dari yang asli 10 berdasarkan pengintaian data. Lebih penting lagi, SE semua jatuh dalam kisaran sempit di masing-masing percobaan. Sangat mudah untuk membuat penyesuaian alfa kecil untuk memperbaikinya jika itu menjadi masalah. Intinya adalah bahwa beberapa pengintai data tidak banyak merugikan dan bahkan dapat membawa manfaat.

(BTW, apa yang saya perlihatkan bukanlah peluru ajaib. Anda tidak benar-benar mengurangi jumlah subjek dalam jangka panjang melakukan hal ini karena kekuatan untuk simulasi N yang bervariasi hampir sama dengan untuk simulasi rata-rata N )

Tidak satu pun di atas yang bertentangan dengan literatur terbaru tentang penambahan subjek setelah percobaan dimulai. Dalam studi tersebut mereka melihat simulasi di mana Anda menambahkan subjek setelah melakukan tes hipotesis untuk mendapatkan nilai-p yang lebih rendah. Itu masih buruk dan dapat secara luar biasa meningkatkan alpha. Lebih jauh, saya sangat suka jawaban Januari dan Peter Flom. Saya hanya ingin menunjukkan bahwa melihat data saat Anda mengumpulkannya, dan bahkan mengubah N yang direncanakan saat mengumpulkan, tidak selalu merupakan hal yang buruk.

John
sumber
Tidak satu pun dari hal-hal ini yang 'baik' dalam arti tidak mempengaruhi distribusi sampling dari statistik pengujian Anda. Tentu saja, respons yang masuk akal terhadap kejutan (cf @ Peter's answer), tetapi agak melemahkan sifat konfirmasi percobaan Anda, meningkatkan 'derajat kebebasan peneliti'. Justru untuk menghindari kejutan bahwa kami melakukan studi percontohan untuk memperbaiki protokol, & mendefinisikan aturan penghentian sebelumnya, dengan mempertimbangkannya dalam analisis. Tujuannya adalah prosedur yang didefinisikan dengan baik yang dapat direplikasi secara independen untuk menunjukkan validitas hasil Anda.
Scortchi
Anda dapat merasa bebas untuk menjalankan simulasi sendiri tetapi memiliki aturan penghentian berbasis varians (lebih dari N minimum yang masuk akal) tidak akan berdampak pada alpha dan akan menghasilkan kekuatan yang diharapkan. Anda bahkan dapat memiliki aturan berhenti berdasarkan SE dan mendapatkan SE yang konsisten dan yang tidak akan memengaruhi alpha, atau beta. Anda tidak dapat memiliki paturan penghentian berdasarkan. Semua kritik memodifikasi N adalah tentang melakukannya setelah tes hipotesis (harus ada hal-hal lain yang dimasukkan juga). Ada potensi bahwa ini menyebabkan godaan ... tapi saya mengabaikannya.
John
Sedangkan untuk distribusi waktu reaksi, Anda menyarankan lebih baik memilih titik potong tetap berdasarkan pilot daripada mencari tahu ketika setiap subjek menebak berdasarkan regresi logistik dan menggunakan titik potong mereka sendiri? (Tentu saja titik potong akurasi tetap, hanya saja bukan waktu reaksi satu).
John
(1) Aturan penghentian berbasis varians: Ini memengaruhi estimasi varians, & oleh karena itu dapat memengaruhi tingkat kesalahan ketika percobaan dianalisis seolah-olah ukuran sampel telah diperbaiki sebelumnya. Ada ketegangan antara peringatan "di luar batas minimum N" yang diberikan dalam komentar Anda & "ukuran sampel kecil" sebagaimana dimaksud dalam jawaban Anda; tidak diragukan lagi Anda memiliki statistik untuk mengetahui perkiraan apa yang cukup baik kapan, tetapi tidak semua orang melakukannya. Secara lebih umum, pendekatan yang tidak dapat didekati adalah dengan jelas mendefinisikan aturan penghentian sebelum percobaan.
Scortchi
(2) Distribusi waktu reaksi: Tidak (walaupun saya mengakui ada sesuatu seperti itu dalam pikiran); Saya menyarankan bahwa apa pun metode yang digunakan untuk menghilangkan pengamatan yang tidak dapat diandalkan, akan lebih baik dikembangkan dari studi percontohan, & kemudian diterapkan dalam eksperimen konfirmasi.
Scortchi
0

Ini benar-benar masalah budaya dari pemikiran yang tidak seimbang, di mana bias publikasi mengarah ke hasil positif dan sifat kompetitif kita mengharuskan editor dan peneliti terlihat memproduksi hasil yang menarik yang baru atau kontroversial, misalnya, dalam artian membantah hasil orang lain. Dalam penelitian medis, ada banyak kemajuan yang dibuat untuk memperbaiki masalah ini dengan pendaftaran wajib uji coba dan publikasi hasil dengan catatan uji coba terbengkalai juga harus dipublikasikan. Saya mengerti bahwa karena publikasi dalam jurnal untuk penelitian yang gagal mungkin tidak dapat dilakukan, ada rencana untuk menyimpan database mereka yang tersedia untuk umum. Hasil yang tidak biasa yang tidak dapat ditiru tidak selalu merupakan hasil kesalahan, karena mungkin 50,

Menggunakan metode yang berbeda belum tentu merupakan solusi. Misalnya, ahli kimia apa yang akan mencampur reagen dengan cara yang berbeda dalam kondisi yang berbeda dan tentu saja mengharapkan hasil yang sama?

Robert Jones
sumber