Jebakan dalam desain eksperimental: Menghindari eksperimen mati

27

Saya telah menemukan kutipan ini beberapa kali:

Untuk berkonsultasi dengan ahli statistik setelah percobaan selesai seringkali hanya memintanya untuk melakukan pemeriksaan post mortem. Dia mungkin bisa mengatakan eksperimen apa yang mati. - Ronald Fisher (1938)

Bagi saya, sepertinya agak sombong. Satu-satunya contoh yang pernah saya temukan menggambarkan bagaimana eksperimen mati tanpa desain yang baik adalah di sekitar kurangnya kontrol, atau kontrol yang buruk. Misalnya, percobaan yang mengontrol aplikasi pupuk, tetapi gagal mengontrol lingkungan yang diperlukan untuk aplikasi tersebut. Mungkin hanya saya, tetapi sepertinya membaca cepat bagian Wikipedia tentang prinsip - prinsip desain Fisher akan mencakup sebagian besar pangkalan.

Sebagai ahli statistik, seberapa sering Anda melihat desain masalah yang terkait dengan eksperimen dengan data? Apakah mereka selalu terkait dengan beberapa faktor yang disebutkan oleh Fisher, atau ada jebakan serius lainnya yang harus kita waspadai oleh para ilmuwan non-statistik?

sia-sia101
sumber
4
Seberapa sering: sangat sering. Untuk menyebut percobaan "mati" biasanya terlalu jauh, tetapi saya banyak percobaan yang saya lihat bisa jauh lebih baik dengan hanya sedikit perubahan dalam desain.
mark999
3
Saya telah melihat beberapa. Meskipun mungkin lancang sekarang , ingatlah bahwa ketika Fisher mengatakannya, Anda tidak bisa hanya melihat wikipedia. Angka ini mungkin jauh lebih tinggi pada hari-hari awal.
Glen_b -Reinstate Monica
4
Senang Anda mengangkat poin ini. Saya juga ingin tahu tentang apa yang mungkin menjadi pertama kalinya saya melihat kualifikasi empat kali lipat: "Bagi saya, sepertinya mungkin agak sombong." :-)
rolando2
1
@ rolando2: Heh, nah itu Fisher. Dia mendapatkan semua kualifikasi itu: D
naught101
5
Saya telah melihat - secara harfiah - ribuan set data dalam karier saya (dan hampir tidak ada yang dikumpulkan menurut desain yang ditinjau oleh ahli statistik mana pun). Sebagian besar dari mereka dikumpulkan untuk tujuan formal, seperti memenuhi persyaratan peraturan. Saya tidak dapat mengingat satu pun yang tidak memiliki beberapa masalah yang berhubungan dengan desain (meskipun kadang-kadang ini kecil). Ini bukan untuk mengatakan bahwa dataset tidak berguna atau "mati": tetapi dalam hampir semua kasus tugas saya adalah (untuk melanjutkan analogi medis) pertama-tama menyadarkan kembali dataset dan kemudian menerapkannya pada tujuan yang dimaksudkan, jika memungkinkan.
whuber

Jawaban:

14

Saya percaya apa yang dimaksud Fisher dalam kutipan terkenalnya lebih dari sekadar mengatakan "Kami akan melakukan desain faktorial penuh untuk studi kami" atau pendekatan desain lainnya. Berkonsultasi dengan ahli statistik ketika merencanakan eksperimen berarti memikirkan setiap aspek masalah dengan cara yang cerdas, termasuk tujuan penelitian, variabel apa yang relevan, cara mengumpulkannya, manajemen data, jebakan, penilaian menengah tentang bagaimana eksperimen berjalan dan banyak lebih. Seringkali, saya merasa penting untuk melihat setiap aspek dari eksperimen yang diajukan secara langsung untuk benar-benar memahami di mana kesulitannya.

Pengalaman saya terutama dari aplikasi medis. Beberapa masalah yang saya temui yang bisa dicegah dengan berkonsultasi dengan ahli statistik sebelumnya:

  • Ukuran sampel yang tidak memadai, tentu saja, nomor satu dalam daftar ini. Seringkali, data dari studi sebelumnya akan tersedia dan akan mudah untuk memberikan estimasi yang masuk akal dari ukuran sampel yang dibutuhkan. Dalam kasus ini, satu-satunya jalan lain adalah sering melakukan analisis data yang murni deskriptif dan menjanjikan penelitian lebih lanjut dalam makalah (tidak menerbitkan biasanya bukan pilihan setelah dokter menginvestasikan waktu yang berharga).
  • Eksekusi percobaan diserahkan pada kenyamanan dan kesempatan alih-alih desain. Contoh yang saya kerjakan saat ini adalah pengukuran dikumpulkan dari waktu ke waktu. Waktu pengukuran, frekuensi pengukuran dan akhir periode pemantauan semuanya sangat bervariasi antar individu. Meningkatkan jumlah pengukuran per individu dan memperbaiki tanggal pengukuran dan akhir periode pemantauan akan menjadi pekerjaan ekstra yang cukup kecil (dalam hal ini) dan akan sangat bermanfaat bagi penelitian.
  • Kontrol buruk terhadap faktor gangguan yang bisa dengan mudah dikontrol. Misalnya pengukuran kadang-kadang dilakukan pada hari pengumpulan sampel dan kadang-kadang kemudian, meninggalkan kemungkinan bahwa sampel telah menurun.
  • Manajemen data yang buruk, termasuk favorit pribadi saya "Saya membulatkan data sebelum memasukkannya ke komputer, karena mesin tidak akurat dalam pengukurannya". Seringkali, data yang relevan tidak dikumpulkan dan tidak mungkin untuk mendapatkannya setelah fakta.

Seringkali, masalah dengan studi bahkan lebih jauh ke belakang, ke konsepsi awal penelitian:

  • Data terkadang dikumpulkan tanpa tujuan yang jelas dan hanya asumsi bahwa itu akan berguna. Menghasilkan hipotesis dan "hasil signifikan" diserahkan kepada ahli statistik.
  • Dan sebaliknya: data dikikis bersama dengan tujuan untuk membuktikan titik tertentu yang dimiliki PI di kepalanya, terlepas dari data dan apa yang sebenarnya bisa dibuktikan dengan itu. Kali ini, ahli statistik hanya harus memberi cap signifikansi pada kesimpulan pra-tertulis tanpa kesimpulan yang disesuaikan dalam menghadapi data.

Sejauh ini, ini terutama terdengar seperti ahli statistik menderita dan mungkin integritas ilmiah menderita ketika PI mencoba untuk mendorong kesimpulan yang tidak didukung oleh data (selalu diskusi yang menyenangkan). Tetapi tim eksperimental juga menderita, karena mereka melakukan pekerjaan tambahan yang tidak perlu (sementara tidak melakukan pekerjaan yang diperlukan) selama fase percobaan dan perlu menghabiskan lebih banyak waktu dalam diskusi dengan ahli statistik mereka setelah fakta, karena mereka tidak mendapatkan saran mereka sebelumnya. Dan tentu saja, makalah akhir akan lebih buruk, akan memiliki lebih sedikit kesimpulan (dan lebih banyak "dugaan") dan kemungkinan tidak akan membuatnya menjadi jurnal berdampak tinggi yang diinginkan PI.

Rob Hall
sumber
Berkenaan dengan set poin kedua dari kedua poin saya, saya pikir alasan normal dari sebuah penelitian adalah untuk mengumpulkan data dengan tujuan membuktikan poin tertentu.
Robert Jones
1
Tentu saja Anda benar. Saya agak terlalu pendek di sana. Apa yang saya maksudkan adalah sebuah skenario di mana PI yang sangat bertekad untuk membuktikan suatu titik dan data berkualitas buruk yang tidak dapat membuktikan titik itu (seringkali karena masalah desain mendasar) berkumpul.
Rob Hall
12

Dua kata: Ukuran Sampel ... Analisis kekuatan adalah suatu keharusan. Dengan memasukkan ahli statistik yang kompeten di tim Anda sejak awal, Anda mungkin akan menyelamatkan diri dari rasa frustrasi ketika Anda menulis hasil dan bagian diskusi dari naskah atau laporan Anda.

Sangat umum bagi penyelidik utama untuk mengumpulkan data sebelum berkonsultasi dengan ahli statistik dengan harapan "model prediksi" atau "hubungan sebab akibat" dari sampel yang kurang dari 30 subjek. Seandainya PI berkonsultasi dengan ahli statistik sebelum mengumpulkan data, ahli statistik akan dapat memberi tahu PI, setelah analisis yang sesuai, untuk mengumpulkan lebih banyak data / subjek atau untuk merestrukturisasi tujuan rencana analisis / proyek mereka.

Matt Reichenbach
sumber
1
Saya tidak setuju dengan "Analisis kekuatan adalah suatu keharusan". Saya pikir banyak orang melebih-lebihkan pentingnya analisis kekuasaan.
mark999
3
@ mark999: Bisa jadi, tapi itu tidak meniadakan pentingnya melakukan semacam analisis kekuatan sebelum melakukan percobaan, yang saya pahami sebagai poin Matt.
Scortchi
3
@ mark999: Tentu saja mereka bisa berguna. Tetapi dalam keadaan apa Anda tidak akan merekomendasikan melakukan segala jenis analisis kekuatan (saya termasuk memperkirakan lebar interval kepercayaan yang diharapkan) sebelum melakukan percobaan? Saya hanya dapat memikirkan (1) studi percontohan, di mana Anda hanya tertarik untuk menjalankan melalui protokol & memperkirakan kesalahan secara kasar, & (2) percobaan yang Anda tidak dapat memilih ukuran sampel karena suatu alasan, membuat analisis daya berlebihan.
Scortchi
2
@ mark999: Saya rasa begitu. Untuk kasus Anda (B), saya sarankan studi percontohan -> analisis daya -> percobaan untuk menguji hipotesis atau memperkirakan ukuran efek sebagai rencana yang tidak dapat ditembus.
Scortchi
3
Bahkan jika Anda memiliki ukuran sampel yang tetap, saya tidak melihat alasan untuk mengubur kepala Anda di pasir dan menghindari analisis daya (respons yang masuk akal terhadap kendala sumber daya dan samping ketidaktahuan).
Andy W
11

Saya kira itu tergantung pada seberapa ketat Anda menafsirkan kata "desain". Kadang-kadang diartikan sebagai blok acak lengkap vs acak, dll. Saya tidak berpikir saya telah melihat sebuah penelitian yang mati karena itu. Juga, seperti yang disebutkan orang lain, saya menduga "mati" terlalu kuat, tetapi itu tergantung pada bagaimana Anda menafsirkan istilah itu. Tentu saja saya telah melihat studi yang 'tidak signifikan' (dan sebagai hasilnya para peneliti tidak mencoba untuk mempublikasikan); dengan asumsi bahwa studi-studi ini mungkin 'signifikan' jika dilakukan secara berbeda (menurut saran yang jelas akan saya berikan), dan karenanya telah diterbitkan, mungkin memenuhi syarat sebagai "mati". Mengingat konsepsi ini, masalah kekuatan yang diangkat oleh @RobHall dan @MattReichenbach cukup mudah, tetapi ada lebih banyak kekuatan daripada ukuran sampel, dan mereka bisa jatuh di bawah konsepsi longgar "desain". Berikut adalah beberapa contoh:

  • Tanpa mengumpulkan / merekam / atau membuang informasi,
    saya mengerjakan sebuah penelitian di mana para peneliti tertarik pada apakah suatu sifat tertentu terkait dengan kanker. Mereka mendapat tikus dari dua garis (yaitu, garis genetik, tikus dibiakkan untuk sifat-sifat tertentu) di mana satu garis diharapkan memiliki lebih banyak sifat daripada yang lain. Namun, sifat yang dipertanyakan itu sebenarnya tidak diukur, meskipun itu bisa saja. Situasi ini analog dengan mendikotomisasi atau membuang variabel kontinu, yang mengurangi daya. Namun, bahkan jika hasilnya 'signifikan', mereka akan menjadi kurang informatif daripada jika kita tahu besarnya sifat untuk setiap tikus.

    Kasus lain dalam judul yang sama ini adalah tidak memikirkan dan mengumpulkan kovariat yang jelas.

  • Desain kuesioner yang buruk.
    Baru-baru ini saya mengerjakan sebuah studi di mana survei kepuasan pasien diberikan dalam dua kondisi. Namun, tidak ada item yang diberi skor terbalik. Tampaknya sebagian besar pasien hanya masuk daftar dan menandai semua 5s ( sangat setuju ), bahkan mungkin tanpa membaca item. Ada beberapa masalah lain, tetapi ini cukup jelas. Anehnya, orang yang bertanggung jawab melakukan penelitian mengatakan kepada saya bahwa dia menghadiri secara eksplisit mendorongnya untuk tidak memeriksa studi dengan ahli statistik terlebih dahulu, meskipun kami bebas dan mudah tersedia untuk konsultasi tersebut.

gung - Pasang kembali Monica
sumber
Whoa ... dengan yang pertama, apa yang tidak mereka mengukur? sepertinya sedikit, um, sudah jelas. Atau mereka diberikan jaminan sebelumnya bahwa sifatnya berbeda di garis yang berbeda? Contoh kedua adalah keren, semacam pengacakan yang kebanyakan orang tidak akan pikirkan.
naught101
5
Itu hanya menguji 1 strain vs yang lainnya. Ciri yang dipertanyakan memang cenderung lebih tinggi untuk salah satu jalur, tetapi ada beberapa tumpang tindih - distribusinya tidak sepenuhnya terpisah.
gung - Reinstate Monica
Saya memiliki pengalaman yang mirip dengan poin 1: perangkat mikofluida didirikan untuk mengenali jenis sel tertentu. Campuran sel yang akan dikenali dan sel kontrol diinjeksikan dan aliran video + aliran sinyal yang akan digunakan untuk pengakuan diperoleh. Sayangnya, sementara aliran video dapat digunakan sebagai referensi untuk apakah ada sel di detektor pada saat tertentu, tidak ada cara untuk mengetahui jenis sel yang sebenarnya, jadi tidak ada cara untuk menentukan apakah suatu sinyal benar positif atau false negative atau no signal
is
8

Saya telah melihat masalah seperti ini dalam survei-seperti dan eksperimen psikologis.

Dalam satu kasus, seluruh percobaan harus dihubungkan dengan pengalaman belajar. Ada masalah di berbagai tingkatan yang menghasilkan campuran hasil, tetapi hasil yang tampaknya memberikan beberapa dukungan untuk hipotesis. Pada akhirnya, saya dapat membantu merencanakan eksperimen yang lebih ketat, yang pada dasarnya memiliki kekuatan yang cukup untuk menolak hipotesis.

Dalam kasus lain, saya diberikan survei yang sudah dirancang dan dieksekusi, dan ada beberapa masalah yang menyebabkan beberapa bidang yang menarik terpengaruh. Di satu bidang utama, misalnya, mereka bertanya berapa kali pelanggan ditolak dari suatu acara karena penuh ketika mereka tiba. Masalahnya adalah tidak ada rentang waktu pada pertanyaan sehingga Anda tidak bisa membedakan antara seseorang yang telah mencoba menghadiri 4 kali dan telah ditolak 4 kali dan seseorang yang telah mencoba menghadiri 40 kali dan hanya ditolak 4 kali .

Saya bukan ahli statistik Capital yang terlatih, tetapi jika mereka datang kepada saya sebelumnya, saya akan dapat membantu mereka memperbaiki masalah ini dan mendapatkan hasil yang lebih baik. Dalam kasus pertama, itu masih akan mengecewakan, "Maaf, hipotesis Anda tampaknya sangat tidak mungkin", tetapi itu bisa menyelamatkan mereka percobaan kedua. Dalam kasus kedua, itu akan memberi mereka jawaban atas beberapa pertanyaan penting dan akan membuat hasilnya lebih tajam. (Masalah lain yang mereka miliki adalah bahwa mereka mensurvei beberapa lokasi dari waktu ke waktu dan setidaknya beberapa orang dengan demikian disurvei berkali-kali, tanpa pertanyaan seperti "Apakah Anda mengambil survei ini di tempat lain?")

Mungkin bukan masalah statistik semata, tetapi dalam kedua kasus ini, pakar domain cerdas dan terdidik menciptakan instrumen yang cacat, dan hasilnya adalah satu eksperimen mati dan satu eksperimen dengan ekstremitas diamputasi.

Wayne
sumber