Sering kali saya menemukan peringatan informal terhadap "pengintaian data" (inilah salah satu contoh yang lucu ), dan saya pikir saya memiliki ide intuitif tentang kira-kira apa artinya itu, dan mengapa itu mungkin menjadi masalah.
Di sisi lain, "analisis data eksplorasi" tampaknya menjadi prosedur yang sangat terhormat dalam statistik, setidaknya dinilai oleh fakta bahwa sebuah buku dengan judul itu masih disebut sebagai buku klasik.
Dalam pekerjaan saya, saya sering menemukan apa yang bagi saya tampak seperti "data snooping" yang merajalela, atau mungkin akan lebih baik digambarkan sebagai " penyiksaan data ", meskipun mereka yang melakukannya tampaknya melihat aktivitas yang sama dengan eksplorasi yang sepenuhnya masuk akal dan tidak bermasalah "eksplorasi" ".
Inilah skenario tipikal: eksperimen mahal dilakukan (tanpa banyak pemikiran diberikan untuk analisis selanjutnya), para peneliti asli tidak dapat dengan mudah melihat "cerita" dalam data yang dikumpulkan, seseorang dibawa masuk untuk menerapkan beberapa "sihir statistik", dan siapa yang , setelah mengiris dan mencelupkan data ke segala arah, akhirnya berhasil mengekstraksi beberapa "cerita" yang dapat diterbitkan darinya.
Tentu saja, biasanya ada beberapa "validasi" yang dilemparkan ke dalam laporan akhir / makalah untuk menunjukkan bahwa analisis statistik sedang naik-turun, tetapi sikap menerbitkan dengan biaya apa pun di balik itu semua membuat saya ragu.
Sayangnya, pemahaman saya yang terbatas tentang hal yang harus dan yang tidak boleh dilakukan dalam analisis data membuat saya melampaui keraguan yang samar-samar, jadi respons konservatif saya pada dasarnya mengabaikan temuan semacam itu.
Harapan saya adalah bahwa tidak hanya pemahaman yang lebih baik tentang perbedaan antara eksplorasi dan pengintaian / penyiksaan, tetapi juga, dan yang lebih penting, pemahaman yang lebih baik tentang prinsip-prinsip dan teknik untuk mendeteksi ketika garis itu dilintasi, akan memungkinkan saya untuk mengevaluasi temuan-temuan tersebut di sebuah cara yang bisa masuk akal untuk prosedur analitik yang kurang optimal, dan dengan demikian dapat melampaui tanggapan saya saat ini yang agak sederhana tentang ketidakpercayaan selimut.
EDIT: Terima kasih semua atas komentar dan jawaban yang sangat menarik. Menilai dari konten mereka, saya pikir saya mungkin belum menjelaskan pertanyaan saya dengan cukup baik. Saya harap pembaruan ini akan mengklarifikasi masalah.
Pertanyaan saya di sini menyangkut bukan apa yang harus saya lakukan untuk menghindari menyiksa data saya (meskipun ini adalah pertanyaan yang juga menarik minat saya), tetapi lebih: bagaimana saya harus menganggap (atau mengevaluasi) hasil yang saya tahu benar-benar telah dicapai melalui "penyiksaan data."
Situasi semakin menarik dalam kasus-kasus (yang lebih jarang) di mana, di samping itu, saya berada dalam posisi untuk menyuarakan pendapat tentang "temuan" tersebut sebelum mereka diajukan untuk dipublikasikan.
Pada titik ini yang paling bisa saya lakukan adalah mengatakan sesuatu seperti, "Saya tidak tahu berapa banyak kepercayaan yang dapat saya berikan untuk temuan-temuan ini, mengingat apa yang saya ketahui tentang asumsi dan prosedur yang digunakan untuk mendapatkannya." Ini terlalu tidak jelas untuk dikatakan. Ingin melampaui ketidakjelasan seperti itu adalah motivasi untuk jabatan saya.
Agar adil, keraguan saya di sini didasarkan pada lebih dari metode statistik yang tampaknya dipertanyakan. Bahkan, saya melihat yang terakhir sebagai konsekuensi dari masalah yang lebih dalam: kombinasi sikap angkuh terhadap desain eksperimental ditambah dengan komitmen kategoris untuk menerbitkan hasil saat mereka berdiri (yaitu tanpa eksperimen lebih lanjut). Tentu saja, proyek tindak lanjut selalu dibayangkan, tetapi itu hanya keluar dari pertanyaan bahwa tidak ada satu kertas pun akan keluar, katakanlah, "kulkas diisi dengan 100.000 sampel."
Statistik muncul hanya sebagai sarana untuk memenuhi tujuan tertinggi ini. Satu-satunya pembenaran untuk menggunakan statistik (sekunder seperti dalam keseluruhan skenario) adalah bahwa tantangan langsung terhadap asumsi "publikasi dengan segala cara" tidak ada gunanya.
Bahkan, saya hanya dapat memikirkan satu respons efektif dalam situasi seperti itu: mengusulkan beberapa uji statistik (tidak memerlukan eksperimen tambahan) yang benar-benar menguji kualitas analisis. Tapi saya tidak punya daging dalam statistik untuk itu. Harapan saya (naif dalam retrospeksi) adalah untuk mencari tahu apa yang dapat saya pelajari yang memungkinkan saya untuk datang dengan tes seperti itu ...
Ketika saya menulis ini, saya baru sadar bahwa, jika belum ada, dunia dapat menggunakan satu cabang pembantu statistik baru, yang dikhususkan untuk teknik mendeteksi dan menyingkap "penyiksaan data". (Tentu saja, saya tidak bermaksud terbawa oleh metafora "penyiksaan": masalahnya bukan "penyiksaan data" per-se, tetapi "temuan" palsu itu dapat menyebabkannya.)
Jawaban:
Ada perbedaan yang kadang-kadang tidak mendapatkan perhatian yang cukup, yaitu generasi hipotesis vs pengujian hipotesis , atau analisis eksplorasi vs pengujian hipotesis. Anda diizinkan semua trik kotor di dunia untuk menghasilkan ide / hipotesis Anda. Tetapi ketika Anda kemudian mengujinya, Anda harus dengan kejam membunuh kesayangan Anda.
Saya seorang ahli biologi yang bekerja dengan data throughput tinggi sepanjang waktu, dan ya, saya sering melakukan "slicing and dicing" ini. Sebagian besar kasus percobaan yang dilakukan tidak dirancang dengan hati-hati; atau mungkin mereka yang merencanakannya tidak memperhitungkan semua kemungkinan hasil. Atau sikap umum ketika perencanaan adalah "mari kita lihat apa yang ada di sana". Kita berakhir dengan set data yang mahal, berharga, dan dalam diri mereka sendiri menarik yang kemudian saya putar dan putar untuk menghasilkan sebuah cerita.
Tapi kemudian, itu hanya cerita (mungkin waktu tidur). Setelah Anda memilih beberapa sudut yang menarik - dan di sini adalah titik krusial - Anda harus mengujinya tidak hanya dengan set data independen atau sampel independen, tetapi lebih disukai dengan pendekatan independen , sistem eksperimental independen.
Pentingnya hal terakhir ini - pengaturan eksperimental independen, tidak hanya seperangkat pengukuran atau sampel independen - sering diremehkan. Namun, ketika kami menguji 30.000 variabel untuk perbedaan yang signifikan, sering terjadi bahwa sementara sampel yang sama (tetapi berbeda) dari kohort yang sama dan dianalisis dengan metode yang sama tidak akan menolak hipotesis kami berdasarkan pada set sebelumnya. Tetapi kemudian kita beralih ke jenis percobaan lain dan kelompok lain, dan temuan kami ternyata merupakan hasil dari bias metodologis atau terbatas dalam penerapannya.
Itulah sebabnya kita sering membutuhkan beberapa makalah oleh beberapa peneliti independen untuk benar-benar menerima hipotesis atau model.
Jadi saya pikir penyiksaan data seperti itu baik-baik saja, selama Anda mengingat perbedaan ini dan mengingat apa yang Anda lakukan, pada tahap proses ilmiah apa Anda. Anda dapat menggunakan fase bulan atau mendefinisikan ulang 2 + 2 selama Anda memiliki validasi data yang independen . Untuk meletakkannya di gambar:
Sayangnya, ada orang yang memesan microarray untuk mengumpulkan kertas setelah beberapa percobaan dilakukan dan tidak ada cerita yang muncul, dengan harapan bahwa analisis throughput yang tinggi menunjukkan sesuatu. Atau mereka bingung tentang keseluruhan pengujian hipotesis vs hal generasi.
sumber
Herman Friedman, profesor favorit saya di sekolah pascasarjana, biasa mengatakan itu
Penghindaran yang ketat terhadap apa pun kecuali pengujian yang paling ketat terhadap hipotesis yang ditentukan apriori sangat membatasi kemampuan Anda untuk terkejut.
Saya pikir kuncinya adalah kita jujur tentang apa yang kita lakukan. Jika kita berada dalam mode yang sangat eksploratif, kita harus mengatakannya. Sebaliknya, seorang profesor yang saya kenal mengatakan kepada muridnya untuk mengubah hipotesisnya karena yang asli tidak ditemukan signifikan.
sumber
Biarkan saya menambahkan beberapa poin:
pertama-tama, generasi hipotesis adalah bagian penting dari sains. Dan hasil non-prediktif (eksplorasi / deskriptif) dapat dipublikasikan.
IMHO masalahnya bukan semata-mata karena eksplorasi data digunakan pada kumpulan data dan hanya sebagian dari temuan itu yang dipublikasikan. Masalahnya adalah
Pengembangan sains dan metode adalah proses berulang dalam cara yang jauh lebih umum daripada hanya pembuatan hipotesis - pengujian - menghasilkan hipotesis baru - pengujian .... IMHO itu adalah masalah penilaian profesional seperti apa perilaku yang tepat diperlukan pada tahap apa (lihat contoh di bawah).
Apa yang saya lakukan:
Ketika saya memiliki kesempatan, saya juga menunjukkan kepada orang-orang berapa banyak perbedaan yang membuat (layak sebagian besar dengan tingkat yang lebih rendah dari masalah yang sama, misalnya membandingkan data yang divalidasi pasien-independen dengan kinerja internal perkiraan rutin optimasi parameter-hiper, seperti pencarian grid untuk SVM paraters, "model gabungan" seperti PCA-LDA, dan sebagainya. Tidak benar-benar layak untuk pengerukan data nyata, karena sejauh ini, tidak ada yang memberi saya uang untuk menghasilkan ulangan sebenarnya dari penelitian berukuran masuk akal ...)
naskah diterima di arXiv: 1211.1323
Berikut sebuah studi yang menemukan bahwa kebutaan ini juga sering sia-sia, misalnya
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: Memutuskan tren dalam pra-pemrosesan ?, Trac Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(mereka mencoba sejumlah besar kombinasi langkah pra-pemrosesan dan menemukan bahwa sangat sedikit yang mengarah ke model yang lebih baik daripada tidak ada pra-pemrosesan sama sekali)
Tekankan bahwa saya tidak menyiksa data saya lebih dari yang diperlukan:
contoh :
Sebuah tindak lanjut kertas menggunakan data yang sama sebagai contoh bagi (yang berbeda) pengembangan teori berbunyi
Karena sementara itu saya secara eksplisit diminta (pada konferensi oleh editor jurnal CILS) untuk membandingkan model dengan pra-pemrosesan PLS.
Ambil sudut pandang praktis: Misalnya dalam studi astrositoma yang terkait di atas, tentu saja saya masih memutuskan beberapa poin setelah melihat data (seperti apa ambang batas intensitas yang sesuai dengan pengukuran yang diambil dari luar sampel - yang kemudian dibuang). Keputusan lain yang saya tahu tidak kritis (linier vs kuadratik: pengalaman saya dengan tipe data itu menunjukkan bahwa ini sebenarnya tidak banyak berubah - yang juga sesuai dengan apa yang ditemukan Jasper Engel pada data berbeda dengan tipe yang sama, jadi Saya tidak akan mengharapkan bias besar datang dari memutuskan jenis baseline dengan melihat data (makalah ini memberikan argumen mengapa itu masuk akal).
Berdasarkan penelitian yang kami lakukan, kami sekarang dapat mengatakan apa yang harus ditangani selanjutnya dan apa yang harus diubah. Dan karena kita masih dalam tahap pengembangan metode yang relatif awal (melihat sampel ex-vivo ), tidak ada gunanya untuk menjalani semua "pekerjaan rumah" yang pada akhirnya akan diperlukan sebelum metode tersebut dapat digunakan in-vivo . Misalnya pada tahap sekarang penilaian astrositoma, validasi resampling adalah pilihan yang lebih masuk akal daripada set tes eksternal. Saya masih menekankan bahwa studi validasi eksternal yang benar-benar diperlukan di beberapa titik, karena beberapa karakteristik kinerja hanya dapat diukur dengan cara itu (misalnya efek dari instrumen melayang / membuktikan bahwa kita dapat memperbaikinya). Tapi saat ini kami masih bermain dengan ex-vivosampel dan memecahkan bagian lain dari masalah besar (dalam makalah terkait: bagaimana menangani kasus batas), keuntungan dalam pengetahuan yang berguna dari studi validasi ex-vivo yang tepat terlalu rendah untuk bernilai saat upaya (IMHO: kecuali yang dilakukan untuk mengukur bias karena pengerukan data).
Saya pernah membaca argumen tentang standar statistik dan pelaporan, dan apakah itu harus diputuskan diperlukan untuk jurnal (tidak ingat yang mana) yang meyakinkan saya: ide yang dikemukakan di sana adalah bahwa tidak perlu bagi editor untuk mencoba menyetujui dan menegakkan beberapa standar (yang akan menyebabkan banyak diskusi yang sia-sia) karena:
sumber
Terkadang hal-hal yang Anda lihat sebagai "penyiksaan data" tidak benar-benar. Tidak selalu jelas sebelumnya apa yang akan Anda lakukan dengan data untuk memberikan apa yang Anda yakini sebagai hasil asli dari eksperimen sampai Anda melihatnya.
Misalnya, dengan data waktu reaksi untuk tugas keputusan, Anda sering ingin menolak waktu yang bukan tentang keputusan (yaitu, ketika mereka berjalan begitu cepat mereka jelas hanya menebak dan tidak membuat keputusan). Anda dapat merencanakan akurasi keputusan terhadap RT untuk melihat di mana tebakan umumnya terjadi. Tetapi sampai Anda telah menguji paradigma tertentu, Anda tidak memiliki cara untuk mengetahui di mana cutoff berada (dalam waktu, bukan keakuratan). Bagi beberapa pengamat, prosedur seperti itu tampak seperti menyiksa data, tetapi selama itu tidak ada hubungannya langsung dengan tes hipotesis (Anda tidak menyesuaikannya berdasarkan tes), maka itu tidak menyiksa data.
Mengintai data selama percobaan tidak masalah selama itu dilakukan dengan cara yang benar. Mungkin tidak etis untuk memasukkan eksperimen Anda ke dalam kotak hitam dan hanya melakukan analisis ketika jumlah subyek yang direncanakan telah dijalankan. Terkadang sulit untuk mengatakan bahwa ada masalah dengan eksperimen sampai Anda melihat data dan Anda harus melihat beberapa sesegera mungkin. Mengintip data sangat diremehkan karena disamakan dengan melihat apakah p <0,05 dan memutuskan untuk melanjutkan. Tetapi ada banyak kriteria dimana Anda dapat memutuskan untuk terus mengumpulkan yang tidak melakukan apa pun yang merusak tingkat kesalahan Anda.
Katakanlah Anda ingin memastikan bahwa estimasi varians Anda berada dalam kisaran kemungkinan yang diketahui. Sampel kecil dapat memiliki estimasi varians yang cukup jauh sehingga Anda mengumpulkan data tambahan hingga Anda tahu sampelnya lebih representatif. Dalam simulasi berikut ini saya mengharapkan varians dalam setiap kondisi menjadi 1. Saya akan melakukan sesuatu yang benar-benar gila dan sampel masing-masing kelompok secara mandiri untuk 10 sampel dan kemudian menambahkan subjek sampai varians mendekati 1.
Jadi, saya baru saja menjadi gila dengan sampling dan membuat varians saya mendekati yang diharapkan dan saya masih tidak banyak mempengaruhi alpha (sedikit di bawah 0,05). Beberapa kendala lagi seperti N harus sama di setiap kelompok dan tidak boleh lebih dari 30 dan alpha cukup tepat pada 0,05. Tapi bagaimana dengan SE? Bagaimana jika saya malah mencoba menjadikan SE sebagai nilai yang diberikan? Itu sebenarnya ide yang sangat menarik karena saya pada gilirannya mengatur lebar CI di muka (tetapi bukan lokasi).
Sekali lagi, alpha mengubah sejumlah kecil meskipun saya telah memungkinkan N untuk menjelajah hingga 46 dari yang asli 10 berdasarkan pengintaian data. Lebih penting lagi, SE semua jatuh dalam kisaran sempit di masing-masing percobaan. Sangat mudah untuk membuat penyesuaian alfa kecil untuk memperbaikinya jika itu menjadi masalah. Intinya adalah bahwa beberapa pengintai data tidak banyak merugikan dan bahkan dapat membawa manfaat.
(BTW, apa yang saya perlihatkan bukanlah peluru ajaib. Anda tidak benar-benar mengurangi jumlah subjek dalam jangka panjang melakukan hal ini karena kekuatan untuk simulasi N yang bervariasi hampir sama dengan untuk simulasi rata-rata N )
Tidak satu pun di atas yang bertentangan dengan literatur terbaru tentang penambahan subjek setelah percobaan dimulai. Dalam studi tersebut mereka melihat simulasi di mana Anda menambahkan subjek setelah melakukan tes hipotesis untuk mendapatkan nilai-p yang lebih rendah. Itu masih buruk dan dapat secara luar biasa meningkatkan alpha. Lebih jauh, saya sangat suka jawaban Januari dan Peter Flom. Saya hanya ingin menunjukkan bahwa melihat data saat Anda mengumpulkannya, dan bahkan mengubah N yang direncanakan saat mengumpulkan, tidak selalu merupakan hal yang buruk.
sumber
p
aturan penghentian berdasarkan. Semua kritik memodifikasi N adalah tentang melakukannya setelah tes hipotesis (harus ada hal-hal lain yang dimasukkan juga). Ada potensi bahwa ini menyebabkan godaan ... tapi saya mengabaikannya.Ini benar-benar masalah budaya dari pemikiran yang tidak seimbang, di mana bias publikasi mengarah ke hasil positif dan sifat kompetitif kita mengharuskan editor dan peneliti terlihat memproduksi hasil yang menarik yang baru atau kontroversial, misalnya, dalam artian membantah hasil orang lain. Dalam penelitian medis, ada banyak kemajuan yang dibuat untuk memperbaiki masalah ini dengan pendaftaran wajib uji coba dan publikasi hasil dengan catatan uji coba terbengkalai juga harus dipublikasikan. Saya mengerti bahwa karena publikasi dalam jurnal untuk penelitian yang gagal mungkin tidak dapat dilakukan, ada rencana untuk menyimpan database mereka yang tersedia untuk umum. Hasil yang tidak biasa yang tidak dapat ditiru tidak selalu merupakan hasil kesalahan, karena mungkin 50,
Menggunakan metode yang berbeda belum tentu merupakan solusi. Misalnya, ahli kimia apa yang akan mencampur reagen dengan cara yang berbeda dalam kondisi yang berbeda dan tentu saja mengharapkan hasil yang sama?
sumber