Bagaimana cara mengatasi analisis data eksplorasi dan pengerukan data dalam studi sampel kecil?

25

Analisis data eksplorasi (EDA) sering mengarah untuk mengeksplorasi "trek" lain yang tidak harus milik set hipotesis awal. Saya menghadapi situasi seperti itu dalam studi dengan ukuran sampel terbatas dan banyak data yang dikumpulkan melalui kuesioner yang berbeda (data sosio-demografi, skala neuropsikologis atau medis - misalnya, fungsi mental atau fisik, tingkat depresi / kecemasan, daftar periksa gejala) ). Kebetulan EDA membantu menyoroti beberapa hubungan tak terduga ("tak terduga" yang berarti bahwa mereka tidak dimasukkan dalam rencana analisis awal) yang diterjemahkan ke dalam pertanyaan / hipotesis tambahan.

Seperti halnya overfitting, pengerukan data atau pengintaian memang mengarah pada hasil yang tidak digeneralisasi. Namun, ketika banyak data tersedia, sangat sulit (bagi peneliti atau dokter) untuk mendalilkan serangkaian hipotesis terbatas.

Saya ingin tahu apakah ada metode, rekomendasi, atau aturan praktis yang diakui yang dapat membantu menggambarkan EDA dalam kasus studi sampel kecil.

chl
sumber
Saya tidak yakin mengapa ukuran sampel Anda penting. Dapatkah Anda menawarkan alasan spesifik lagi mengapa Anda berpikir itu berbeda untuk n kecil daripada untuk n besar?
Andy W
2
@Andy Karena itu menjadi sangat sulit untuk mempertimbangkan sampel ketidaksepakatan dan / atau ketidakseimbangan kelas dengan ukuran sampel yang sangat terbatas ( ) umumnya menghasilkan tingkat kesalahan klasifikasi yang lebih besar ketika menerapkan CV; beberapa individu mungkin dianggap outlier ketika mempelajari distribusi bivariat; dan ukuran yang dikumpulkan pada instrumen dengan kesalahan pengukurannya sendiri kurang dapat diandalkan (kecil n , σ besar ). Dalam arti tertentu, kadang-kadang sulit untuk memisahkan hubungan yang tidak terduga dari artefak. 13<n<25nσ
chl
Saya rasa saya bisa mengerti sentimen itu jika yang Anda minati hanyalah klasifikasi. Saya pikir untuk inferensial kausal masalah dengan pengintai data adalah sama (yaitu masalah tidak diselesaikan oleh kekuatan yang meningkat untuk mengidentifikasi hubungan). Saya akan mencoba merumuskan pendapat ini menjadi jawaban. Saya dapat mengajukan pertanyaan di forum utama sementara itu tentang penggunaan validasi silang untuk inferensi kausal, karena saya belum menemukan pekerjaan apa pun di bidang saya yang melakukan ini.
Andy W
1
@Andy, terima kasih. Semoga pertanyaan Anda akan menerima banyak jawaban menarik.
chl

Jawaban:

10

Saya pikir yang utama adalah jujur ​​ketika melaporkan hasil seperti itu bahwa itu adalah temuan tak terduga dari EDA dan bukan bagian dari rencana analisis awal berdasarkan pada hipotesis a priori . Beberapa orang suka memberi label hasil seperti 'penghasil hipotesis': misalnya klik pertama dari pencarian untuk frasa ini di Google Cendekia termasuk yang berikut ini di bagian kesimpulan dari abstraknya:

Karena ini merupakan analisis "eksplorasi", efek ini harus dianggap sebagai penghasil hipotesis dan dinilai secara prospektif dalam percobaan lain ...

Meskipun perlu dicatat bahwa meskipun ini adalah analisis subkelompok post-hoc, ini berasal dari uji coba kontrol acak, bukan studi observasional, di mana masalahnya menjadi lebih buruk. Philip Cole menumpahkan cemoohan pada gagasan bahwa penelitian observasional ('epidemiologis') dapat menghasilkan hipotesis dalam komentar yang sengaja provokatif tetapi menghibur:

P Cole. Mesin pembuat hipotesis. Epidemiologi 1993; 4 : 271-273.

onestop
sumber
+1 Terima kasih atas tautannya (dan retag). Saya akan melihat ke arah ini.
chl
13

Saya hanya memberikan beberapa referensi tentang pengerukan data dan studi klinis untuk pembaca yang tertarik. Ini dimaksudkan untuk memperluas jawaban halus @onestop . Saya mencoba menghindari artikel yang hanya berfokus pada beberapa perbandingan atau masalah desain, meskipun studi dengan banyak titik akhir terus menyajikan diskusi yang menantang dan kontroversial (lama setelah klaim Rothman tentang penyesuaian yang tidak berguna , Epidemiologi 1990, 1: 43-46; atau lihat ulasan Feise di BMC Metodologi Penelitian Medis 2002, 2: 8).

Pemahaman saya adalah bahwa, meskipun saya berbicara tentang analisis data eksplorasi , pertanyaan saya lebih umum membahas penggunaan data mining, dengan potensi jebakannya, secara paralel dengan pengujian yang digerakkan oleh hipotesis.

  1. Koh, HC dan Tan, G (2005). Aplikasi Penambangan Data di Layanan Kesehatan . Jurnal Manajemen Informasi Kesehatan , 19 (2), 64-72.
  2. Ioannidis, JPA (2005). Mengapa sebagian besar temuan penelitian yang dipublikasikan adalah palsu . Kedokteran PLoS , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH, dan Burnham, KP (2001). Saran untuk Mempresentasikan Hasil Analisis Data . The Journal of Wildlife Management , 65 (3), 373-378. - ini menggemakan komentar @ onestop tentang fakta bahwa kita harus mengakui eksplorasi / pemodelan berbasis data di luar set hipotesis awal
  4. Michels, KB dan Rosner, BA (1996). Data trawling: untuk memancing atau tidak memancing . Lancet , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ, dan Keech, AC (2004). Berbagai analisis dalam uji klinis: ilmu pengetahuan atau pengerukan data? . The Medical Journal of Australia , 181 (8), 452-454.
  6. Smith, GD dan Ebrahim, S (2002). Pengerukan data, bias, atau membingungkan . BMJ , 325, 1437-1438.
  7. Afshartous, D dan Wolf, M (2007). Menghindari 'pengintai data' dalam model efek bertingkat dan campuran . Jurnal Royal Statistics Society A , 170 (4), 1035–1059
  8. Anderson, DR, Burnham, KP, Gould, WR, dan Cherry, S (2001). Kekhawatiran tentang menemukan efek yang sebenarnya palsu . Buletin Masyarakat Widlife , 29 (1), 311-316.
chl
sumber
Ini hanya rekap dari apa yang saya baca sejauh ini. Jelas, saya tidak akan menerima jawaban saya sendiri . Pikiran lain akan sangat dihargai.
chl
Terima kasih telah menerima jawaban saya chi, meskipun daftar referensi Anda sendiri jauh lebih baik dan lebih baru. Saya benar-benar harus memikirkan beberapa dari mereka sendiri karena saya punya mereka di hard drive saya, dan mungkin bahkan membaca bagian dari mereka ...
onestop