Analisis data eksplorasi (EDA) sering mengarah untuk mengeksplorasi "trek" lain yang tidak harus milik set hipotesis awal. Saya menghadapi situasi seperti itu dalam studi dengan ukuran sampel terbatas dan banyak data yang dikumpulkan melalui kuesioner yang berbeda (data sosio-demografi, skala neuropsikologis atau medis - misalnya, fungsi mental atau fisik, tingkat depresi / kecemasan, daftar periksa gejala) ). Kebetulan EDA membantu menyoroti beberapa hubungan tak terduga ("tak terduga" yang berarti bahwa mereka tidak dimasukkan dalam rencana analisis awal) yang diterjemahkan ke dalam pertanyaan / hipotesis tambahan.
Seperti halnya overfitting, pengerukan data atau pengintaian memang mengarah pada hasil yang tidak digeneralisasi. Namun, ketika banyak data tersedia, sangat sulit (bagi peneliti atau dokter) untuk mendalilkan serangkaian hipotesis terbatas.
Saya ingin tahu apakah ada metode, rekomendasi, atau aturan praktis yang diakui yang dapat membantu menggambarkan EDA dalam kasus studi sampel kecil.
Jawaban:
Saya pikir yang utama adalah jujur ketika melaporkan hasil seperti itu bahwa itu adalah temuan tak terduga dari EDA dan bukan bagian dari rencana analisis awal berdasarkan pada hipotesis a priori . Beberapa orang suka memberi label hasil seperti 'penghasil hipotesis': misalnya klik pertama dari pencarian untuk frasa ini di Google Cendekia termasuk yang berikut ini di bagian kesimpulan dari abstraknya:
Karena ini merupakan analisis "eksplorasi", efek ini harus dianggap sebagai penghasil hipotesis dan dinilai secara prospektif dalam percobaan lain ...
Meskipun perlu dicatat bahwa meskipun ini adalah analisis subkelompok post-hoc, ini berasal dari uji coba kontrol acak, bukan studi observasional, di mana masalahnya menjadi lebih buruk. Philip Cole menumpahkan cemoohan pada gagasan bahwa penelitian observasional ('epidemiologis') dapat menghasilkan hipotesis dalam komentar yang sengaja provokatif tetapi menghibur:
P Cole. Mesin pembuat hipotesis. Epidemiologi 1993; 4 : 271-273.
sumber
Saya hanya memberikan beberapa referensi tentang pengerukan data dan studi klinis untuk pembaca yang tertarik. Ini dimaksudkan untuk memperluas jawaban halus @onestop . Saya mencoba menghindari artikel yang hanya berfokus pada beberapa perbandingan atau masalah desain, meskipun studi dengan banyak titik akhir terus menyajikan diskusi yang menantang dan kontroversial (lama setelah klaim Rothman tentang penyesuaian yang tidak berguna , Epidemiologi 1990, 1: 43-46; atau lihat ulasan Feise di BMC Metodologi Penelitian Medis 2002, 2: 8).
Pemahaman saya adalah bahwa, meskipun saya berbicara tentang analisis data eksplorasi , pertanyaan saya lebih umum membahas penggunaan data mining, dengan potensi jebakannya, secara paralel dengan pengujian yang digerakkan oleh hipotesis.
sumber