Saya ingin tahu literatur statistik apa yang relevan untuk masalah berikut ini, dan mungkin bahkan sebuah ide tentang bagaimana menyelesaikannya.
Bayangkan masalah berikut ini:
Kami memiliki 4 kemungkinan perawatan untuk beberapa penyakit. Untuk memeriksa perawatan mana yang lebih baik, kami melakukan uji coba khusus. Dalam uji coba, kita mulai dengan tidak memiliki subjek, lalu, satu per satu, lebih banyak subjek dimasukkan ke dalam uji coba. Setiap pasien dialokasikan secara acak ke salah satu dari 4 perawatan yang mungkin. Hasil akhir dari perawatan adalah "sehat" atau "masih sakit", dan katakanlah kita dapat mengetahui hasil ini secara instan. Ini berarti bahwa pada suatu titik tertentu, kita dapat membuat tabel kontingensi dua dengan empat, dengan mengatakan berapa banyak dari subyek kita yang termasuk dalam perawatan / hasil akhir.
Pada titik mana pun kita dapat memeriksa tabel kontingensi (misalnya, menggunakan uji chi square), untuk melihat apakah ada perlakuan yang berbeda secara statistik antara 4 kemungkinan perawatan. Jika salah satu dari mereka lebih baik dari yang lain - kami menghentikan uji coba dan memilihnya sebagai "pemenang". Jika beberapa percobaan terbukti lebih buruk dari ketiga lainnya, kami akan menjatuhkannya dari percobaan dan berhenti memberikannya kepada pasien di masa depan.
Namun, masalahnya di sini adalah bagaimana cara menyesuaikan nilai-p untuk fakta bahwa tes dapat dilakukan pada titik tertentu, bahwa ada korelasi antara tes, dan juga bahwa sifat adaptif dari proses memanipulasi proses (untuk Misalnya, jika beberapa pengobatan ditemukan "buruk")?
Jawaban:
Area uji klinis sekuensial ini telah dieksplorasi secara substansial dalam literatur. Beberapa peneliti terkenal adalah Scott Emerson, Tom Flemming, David DeMets, Stephen Senn, dan Stuart Pocock.
Dimungkinkan untuk menentukan "aturan belanja alpha". Istilah ini berawal pada sifat pengujian frequentist (non-Fisherian) di mana, setiap tindakan yang meningkatkan risiko temuan positif palsu harus selalu mengurangi daya untuk menjaga pengujian ukuran yang benar. Namun, sebagian besar dari tes tersebut mensyaratkan bahwa "aturan berhenti" ditentukan sebelumnya berdasarkan batas informasi penelitian. (sebagai pengingat, lebih banyak informasi berarti kekuatan lebih besar ketika nol adalah salah).
Lihat
[1] www.rctdesign.org/
sumber
Ini terdengar seperti simulasi.
Kita dapat mengulangi seluruh analisis ini untuk beberapa nominal dan melihat berapa tingkat kesalahan aktual yang kita dapatkan: tingkat kesalahan α 0,05 ∼ 0,28 0,01α
Kode cepat dan kotor saya di Matlab ada di bawah. Harap perhatikan bahwa kode ini mati otak dan tidak dioptimalkan sama sekali; semuanya berjalan dalam loop dan sangat lambat. Ini mungkin bisa dipercepat banyak.
sumber