Saya sedang membaca artikel ini di Nature di mana beberapa fallacy dijelaskan dalam konteks analisis data. Saya perhatikan bahwa kesalahan penembak jitu Texas sangat sulit untuk dihindari:
Perangkap kognitif yang menunggu selama analisis data diilustrasikan oleh dongeng penembak jitu Texas: penembak jitu tidak kompeten yang menembakkan pola acak peluru di sisi gudang, menarik target sekitar gumpalan lubang peluru terbesar, dan menunjuk dengan bangga pada kesuksesannya.
Bullseye-nya jelas menggelikan - tetapi kekeliruan itu tidak begitu jelas bagi para penjudi yang percaya pada 'tangan panas' ketika mereka memiliki rentetan kemenangan, atau kepada orang-orang yang melihat signifikansi supernatural ketika undian lotere muncul karena semua angka ganjil.
Juga tidak selalu jelas bagi para peneliti. “Anda hanya mendapat dorongan dari data dan kemudian berpikir, yah, ini jalan untuk turun,” kata Pashler. “Anda tidak menyadari bahwa Anda memiliki 27 pilihan berbeda dan Anda memilih satu yang memberi Anda hasil yang paling menyenangkan atau menarik, dan sekarang Anda terlibat dalam sesuatu yang sama sekali bukan representasi data yang tidak bias. ”
Saya pikir jenis pekerjaan eksplorasi itu biasa dan sering, hipotesis dibangun berdasarkan bagian analisis itu. Ada seluruh pendekatan ( EDA ) yang didedikasikan untuk proses ini:
Analisis data eksplorasi dipromosikan oleh John Tukey untuk mendorong ahli statistik untuk mengeksplorasi data, dan mungkin merumuskan hipotesis yang dapat menyebabkan pengumpulan data baru dan eksperimen
Sepertinya setiap proses eksplorasi yang dilakukan tanpa memiliki hipotesis sebelumnya cenderung menghasilkan hipotesis palsu.
Perhatikan bahwa deskripsi EDA di atas sebenarnya berbicara tentang new data collection and experiments
. Saya mengerti bahwa setelah data baru dikumpulkan, maka analisis data konfirmasi (CDA) sesuai. Namun, saya tidak berpikir perbedaan ini dibuat sangat jelas, dan meskipun pemisahan EDA dan CDA akan ideal, pasti ada beberapa keadaan di mana ini tidak layak. Saya akan mengatakan lebih jauh bahwa mengikuti pemisahan ini sangat jarang dan sebagian besar praktisi tidak berlangganan paradigma EDA sama sekali.
Jadi pertanyaan saya adalah: Apakah EDA (atau proses informal dari penjelajahan data) membuatnya lebih mungkin jatuh pada fallacy shooter Texas?
Jawaban:
Jika seseorang memandang peran EDA secara ketat sebagai penghasil hipotesis, maka tidak ada kesalahan penembak jitu yang tidak berlaku. Namun, sangat penting bahwa uji konfirmasi berikutnya memang independen. Banyak peneliti berusaha untuk "mendamaikan perbedaan" dengan hal-hal seperti analisis gabungan, analisis meta, dan metode Bayesian. Ini berarti bahwa setidaknya beberapa bukti yang disajikan dalam analisis tersebut termasuk "lingkaran di sekitar lubang peluru acak".
sumber
Ini melukiskan pandangan yang sangat negatif dari analisis data eksplorasi. Meskipun argumennya tidak salah, itu benar-benar mengatakan "apa yang bisa salah ketika saya menggunakan alat yang sangat penting dengan cara yang salah?"
Menerima nilai p yang tidak disesuaikan dari metode EDA akan menyebabkan tingkat kesalahan tipe I yang sangat meningkat. Tapi saya pikir Tukey tidak akan senang dengan siapa pun yang melakukan ini. Maksud dari EDA bukanlah untuk membuat kesimpulan yang pasti tentang hubungan dalam data, tetapi lebih untuk mencari hubungan baru yang potensial dalam data untuk ditindaklanjuti.
Meninggalkan langkah ini dalam proses ilmiah yang lebih besar pada dasarnya adalah melumpuhkan ilmu pengetahuan untuk tidak pernah dapat menemukan aspek baru yang menarik dari data kami, di luar deduksi logis murni. Pernah mencoba untuk menyimpulkan secara logis bagaimana ekspresi berlebihan dari set gen akan mempengaruhi kelangsungan hidup sel? Petunjuk: itu tidak mudah (salah satu lelucon favorit kami di antara staf bioinformatika di tempat kerja saya adalah ketika seorang fisikawan bertanya, "Mengapa Anda tidak mensimulasikan sifat fisik dari interaksi gen yang berbeda? Ini ruang parameter terbatas.")
Secara pribadi, saya pikir kebingungan tentang hal ini dapat menyebabkan lambatnya kemajuan ilmiah. Saya tahu terlalu banyak peneliti non-statistik yang akan menyatakan bahwa mereka tidak ingin melakukan prosedur EDA pada data awal , karena mereka "tahu bahwa EDA bisa buruk".
Kesimpulannya, benar-benar benar bahwa menggunakan metode EDA dan memperlakukannya sebagai metode analisis data konfirmasi akan menghasilkan hasil yang tidak valid. Namun, kurangnya penggunaan EDA yang tepat dapat menyebabkan hampir tidak ada hasil.
sumber
Saya akan marah pernyataan ini dan mengungkapkannya sedikit berbeda: Memilih hipotesis untuk diuji berdasarkan data merusak tes jika seseorang tidak menggunakan hipotesis nol yang benar. Dorongan artikel Nature, pada dasarnya, adalah bahwa mudah bagi analis untuk menipu diri mereka sendiri untuk mengabaikan semua perbandingan ganda yang secara implisit mereka buat selama eksplorasi.
Nature mengutip Andrew Gelman, tetapi tidak menyebut makalahnya dengan Eric Loken tentang topik ini. Kutipan:
Lain:
Singkatnya:
Dan satu lagi, tekankan:
Singkatnya, bukan karena EDA mengarah pada "hipotesis palsu"; itu menguji hipotesis dengan dataset yang sama yang mendorong hipotesis dapat menyebabkan kesimpulan palsu.
Jika Anda tertarik untuk menaklukkan rintangan ini, Gelman memiliki makalah lain yang berpendapat bahwa banyak dari masalah ini hilang dalam kerangka Bayesian, dan kertas dengan Loken referensi "replikasi pra-publikasi" seperti yang dijelaskan secara anekdot di bagian pertama makalah ini .
sumber
Hampir secara definisi, ya, tentu saja EDA tanpa CDA menarik penembak jitu Texas.
sumber
Hanya untuk menambah jawaban yang sudah bagus: Ada jalan tengah antara CDA lengkap dan hanya menerima hasil EDA Anda pada nilai nominal. Setelah Anda menemukan fitur yang mungkin menarik (atau hipotesis), Anda bisa merasakan kekokohannya dengan melakukan simulasi validasi silang (CV) atau bootstrap. Jika temuan Anda hanya bergantung pada beberapa pengamatan utama, maka CV atau Bootstrap akan menunjukkan bahwa banyak lipatan (CV) atau sampel boostrap gagal mereproduksi fitur yang diamati.
Ini bukan metode yang sangat mudah, tetapi ini merupakan pemeriksaan perantara yang baik sebelum menggunakan CDA lengkap (atau dengan sengaja mengulurkan "set validasi" dari kumpulan data awal Anda).
sumber
Kriteria yang paling ketat untuk pemilihan model data adalah sejauh mana mendekati Kompleksitas Kolmogorov dari data - yaitu untuk mengatakan sejauh mana data tanpa kompres memampatkan data. Secara teori, ini bisa dihasilkan dari analisis data eksplorasi saja.
Lihat " Dekonvolusi kausal oleh model generatif algoritmik "
sumber