Mengapa bias terpengaruh ketika uji klinis dihentikan pada tahap awal?

24

Sebuah analisis sementara adalah analisis data pada satu atau lebih titik waktu sebelum resmi penutupan penelitian dengan tujuan, misalnya, mungkin mengakhiri studi awal.

Menurut Piantadosi, S. ( Uji klinis - perspektif metodologis ): " Perkiraan efek pengobatan akan menjadi bias ketika uji coba dihentikan pada tahap awal. Semakin awal keputusan, semakin besar biasnya. "

Bisakah Anda menjelaskan klaim ini kepada saya? Saya dapat dengan mudah memahami bahwa keakuratan akan terpengaruh, tetapi klaim tentang bias tidak jelas bagi saya ...

okram
sumber
Saya pikir ini adalah pertanyaan yang sempurna untuk "menyempurnakan" perbedaan antara metodologi Bayesian dan Frequentist
probabilityislogic

Jawaban:

13

Pertama-tama, Anda harus mencatat konteksnya: ini hanya berlaku ketika percobaan dihentikan lebih awal karena pemantauan sementara menunjukkan kemanjuran / kesia-siaan, bukan karena alasan acak di luar. Dalam hal ini estimasi ukuran efek akan bias dalam arti statistik sepenuhnya. Jika Anda berhenti untuk kemanjuran, perkiraan efeknya akan terlalu tinggi (dengan asumsi itu positif), jika Anda berhenti untuk kesia-siaan, itu akan terlalu rendah.

Piantodosi juga memberikan penjelasan intuitif (Bagian 10.5.4 dalam edisi saya). Misalkan perbedaan sejati dalam dua cara adalah 1 unit. Ketika Anda menjalankan banyak percobaan, dan melihatnya pada waktu analisis sementara Anda, beberapa dari mereka akan mengamati ukuran efek jauh di atas 1, beberapa jauh di bawah satu, dan sebagian besar di sekitar 1 - distribusi akan lebar, tetapi simetris. Perkiraan ukuran efek pada titik ini tidak akan terlalu akurat, tetapi tidak bias. Namun Anda hanya berhenti dan melaporkan ukuran efek jika perbedaannya signifikan (disesuaikan untuk beberapa pengujian), yaitu perkiraannya berada di sisi yang tinggi. Dalam semua kasus lain, Anda terus berjalan dan tidak melaporkan perkiraan. Itu berarti syarat untuk berhenti lebih awal, distribusi ukuran efek tidak simetris, dan nilai yang diharapkan di atas nilai sebenarnya dari estimasi.

Fakta bahwa efek ini lebih parah pada awalnya berasal dari rintangan yang lebih besar untuk menghentikan persidangan, sehingga sebagian besar dari distribusi dibuang selama pengkondisian.

Aniko
sumber
1
Awalnya saya juga memikirkan hal ini, tetapi ketika saya duduk untuk membuktikannya, saya tidak bisa: Saya hanya bisa menunjukkan bahwa perkiraan hasil sebenarnya tidak bias. (Intuisi baru: bias positif dari penghentian bersyarat menyeimbangkan bias negatif dari menjalankan eksperimen hingga selesai.) Jadi: dapatkah Anda menyajikan demonstrasi yang lebih ketat?
whuber
@whuber Saya akan mencoba untuk menulis itu, tapi intinya adalah bahwa pernyataan Piantodosi adalah hanya tentang apa yang terjadi ketika Anda lakukan berhenti lebih awal. Tidak ada penyelesaian untuk menyeimbangkannya.
Aniko
2
@whuber Ya, itulah yang diklaim juga oleh pernyataan aslinya. Maksud Anda bahwa akan ada bias yang berlawanan dengan syarat untuk menyelesaikan studi juga valid. Seluruh pesan harusnya adalah begitu Anda mulai melakukan pemantauan sementara, hal-hal lucu mulai terjadi pada kemampuan Anda untuk memperkirakan ukuran efek.
Aniko
3
@ Aniko Harus mungkin untuk menyesuaikan bias ketika penghentian dini terjadi. Karena itu, kami membahas penggunaan naif dari estimator standar, yang dimaksudkan untuk sampel acak ukuran tetap, dalam percobaan yang diakhiri secara kondisional, di mana estimator tersebut tidak memiliki sifat yang diinginkan. (+1, omong-omong.)
whuber
2
@whuber Tentu, Anda dapat menyesuaikan bias ini, tetapi pertama-tama Anda harus mengakui bahwa itu ada. Dan kemudian Anda harus menjual kepada penyelidik bahwa meskipun jelas 5 dari 10 pasien merespons, perkiraan tingkat respons adalah 40% (angka dibuat-buat) setelah disesuaikan dengan bias karena berhenti lebih awal.
Aniko
3

Berikut adalah ilustrasi tentang bagaimana bias mungkin muncul dalam kesimpulan, dan mengapa itu mungkin bukan cerita lengkapnya. Misalkan Anda memiliki uji coba berurutan dari obat yang diharapkan memiliki efek positif (+1) tetapi mungkin memiliki efek negatif (-1). Lima marmut diuji satu demi satu. Probabilitas yang tidak diketahui dari hasil positif dalam satu kasus sebenarnya dan hasil negatif . 13414

Jadi setelah lima percobaan probabilitas dari hasil yang berbeda

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

jadi probabilitas hasil positif secara keseluruhan adalah 918/1024 = 0,896, dan hasil rata-rata adalah +2,5. Dibagi dengan 5 percobaan, ini adalah rata-rata hasil +0,5 per percobaan.

Ini adalah angka yang tidak bias, karena juga .+1×341×14

Misalkan untuk melindungi kelinci percobaan, penelitian ini akan dihentikan jika pada tahap apa pun hasil kumulatifnya negatif. Maka probabilitas menjadi

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

sehingga probabilitas hasil positif secara keseluruhan adalah 702/1024 = 0,6855, dan hasil rata-rata adalah +1,953. Jika kita melihat nilai rata-rata hasil per percobaan dalam perhitungan sebelumnya, yaitu menggunakan , , , , dan maka kita akan mendapatkan +0.184. +3+55 +1+35 -1+15 -115 -11311

Ini adalah indra di mana ada bias dengan berhenti di awal skema kedua, dan bias berada di arah yang diprediksi. Tapi ini bukan cerita lengkapnya.

Mengapa whuber dan probabilityislogic berpikir berhenti lebih awal harus menghasilkan hasil yang tidak bias? Kita tahu hasil yang diharapkan dari percobaan dalam skema kedua adalah +1.953. Jumlah percobaan yang diharapkan ternyata 3,906. Jadi, membagi satu dengan yang lain kita mendapatkan +0.5, persis seperti sebelumnya dan apa yang digambarkan sebagai tidak bias.

Henry
sumber
Anda mengambil perspektif dunia "pra-data". Apa yang Anda katakan adalah benar, bahwa aturan penghentian itu penting, tetapi hanya sebelum Anda mempertimbangkan data . Ini karena aturan penghentian menyediakan informasi tentang data, tetapi bukan tentang probabilitas yang sebenarnya. Jadi begitu data masuk, aturan berhenti tidak lagi penting. Perhatikan bahwa probabilitas sebenarnya tidak diketahui dalam percobaan yang sebenarnya. Jadi Anda juga perlu mempertimbangkan situasi ketika probabilitasnya, katakanlah dan , serta kombinasi lainnya yang mungkin. P(-)=3P(+)=14P()=34
probabilityislogic
Jadi saya ambil contoh Anda dengan menyatakan bahwa . Ini memang benar! Jawaban saya juga kondisi di sekalipun. Ini karena, jika Anda memberi tahu saya aturan berhenti, tetapi tidak apakah Anda benar-benar berhenti, saya bisa mencari tahu ini dari kumpulan data yang sebenarnya saya miliki. Bahkan, saya bisa mencari tahu apakah ada aturan berhenti benar-benar berhenti, begitu saya tahu datanya. DP(H|S,I)P(H|I)D
probabilityislogic
1

Yah, pengetahuan saya tentang ini berasal dari pidato Harveian pada tahun 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 Pada dasarnya, sejauh ingatan saya yang terbaik, hasilnya akan menjadi bias karena 1) berhenti lebih awal biasanya berarti bahwa salah satu perawatan lebih atau kurang efektif dari yang diharapkan, dan jika ini positif, maka Anda mungkin memanfaatkan peluang. Saya percaya bahwa nilai p dihitung berdasarkan ukuran sampel yang direncanakan (tapi saya bisa salah tentang ini), dan juga jika Anda terus-menerus memeriksa hasil Anda untuk melihat apakah ada efek yang ditampilkan, Anda perlu memperbaiki beberapa perbandingan. untuk memastikan bahwa Anda tidak hanya menemukan efek kebetulan. Misalnya, jika Anda memeriksa 20 kali untuk nilai p di bawah 0,05 kemudian secara statistik, Anda hampir pasti menemukan satu hasil yang signifikan.

richiemorrisroe
sumber
BAGIAN 1 Pertama-tama, terima kasih atas jawaban Anda. Memang, metode frequentist benar untuk beberapa pengujian. Oleh karena itu, masalah estimasi efek pengobatan yang bias tidak dapat datang dari sana. Pada analisis sementara, tes didasarkan pada informasi saat ini, menggunakan ukuran sampel saat ini, bukan ukuran sampel yang direncanakan secara keseluruhan. Jadi masalahnya tidak datang dari sana juga.
ocram
BAGIAN 2 Saya setuju bahwa berhenti lebih awal dapat berarti bahwa perawatannya "lebih efektif daripada yang melompat". Dalam hal itu, efek pengobatan perkiraan akan lebih besar dari yang diharapkan. Tetapi, menurut saya, ini tidak membuatnya bias ... Sebaliknya, menurut saya, dalam beberapa hal, "harapan kami bias".
ocram
1

Saya akan tidak setuju dengan klaim itu, kecuali dengan "bias" Piantadosi berarti bagian dari keakuratan yang biasa disebut bias. Inferensi tidak akan "bias" karena Anda memilih untuk berhenti sendiri: itu akan "bias" karena Anda memiliki lebih sedikit data. Yang disebut "prinsip kemungkinan" menyatakan bahwa inferensi hanya bergantung pada data yang diamati, dan bukan pada data yang mungkin telah diamati, tetapi tidak. LP mengatakan

P(H|D,S,I)=P(H|D,I)

HDSIDIS=g(D,I)AA=AS=g(D,I)DID,S,I=D,g(D,I),I=D,IDI itu penting.

probabilityislogic
sumber
@probabilityislogic: Terima kasih! Jika saya memahaminya dengan baik, "bias" tidak boleh diambil dalam arti statistik. Saya pikir ini masuk akal karena Piantadosi berbicara tentang "bias" dari estimasi dan bukan tentang estimator ...
ocram
E(μμ^)2=var(μ^)+Bias(μ^)μμ^adalah "estimator". Jika istilah kedua (bias) tergantung pada ukuran sampel, maka Anda akan berharap bahwa berhenti lebih awal akan meningkatkan bias, karena telah mengurangi ukuran sampel, relatif jika percobaan dilanjutkan. Tetapi dari apa yang Anda katakan, sepertinya "bias" harus ditafsirkan sebagai "kesalahan" dari perspektif Piantadosi.
probabilityislogic
1
Argumen ini tidak mengatakan apa-apa tentang bias, hanya aspek pengujian hipotesis dari masalah, yang tidak ada yang mempertanyakan.
Aniko
@Prob Saya harus setuju dengan @Aniko: jelas bahwa ketika nol benar, ada kemungkinan positif penghentian awal, dalam hal ini perkiraan efeknya akan nol. Dengan demikian harapan dari efek yang diperkirakan, tergantung pada penghentian dini, adalah positif, sedangkan harapan tanpa syarat adalah nol. (Perhatikan bahwa OP membahas estimasi , bukan pengujian hipotesis.)
whuber
Hμ(a,a+da)SDISSSDIμ
probabilityislogic
0

ada akan bias (dalam "arti statistik") jika pemutusan studi tidak acak.

Dalam serangkaian eksperimen yang dijalankan hingga kesimpulan, hasil "awal" dari (a) beberapa eksperimen yang akhirnya menemukan "tidak ada efek" akan menunjukkan beberapa efek (sebagai akibat dari kebetulan) dan (b) beberapa eksperimen yang akhirnya menemukan efek akan menunjukkan "tidak ada efek" (kemungkinan karena kurangnya daya). Dalam dunia di mana Anda menghentikan uji coba, jika Anda berhenti (a) lebih sering daripada (b), Anda akan berakhir di berbagai studi dengan bias dalam mendukung menemukan efek. (Logika yang sama berlaku untuk ukuran efek ; mengakhiri studi yang menunjukkan efek "lebih besar dari yang diharapkan" sejak awal lebih sering daripada yang menunjukkan "seperti yang diharapkan atau lebih rendah" akan meningkatkan jumlah temuan "efek besar.")

Jika pada kenyataannya percobaan medis dihentikan ketika hasil awal menunjukkan efek positif - untuk membuat pengobatan tersedia untuk subyek dalam plasebo atau orang lain - tetapi tidak ketika hasil awal tidak dapat disimpulkan, maka akan ada lebih banyak kesalahan tipe 1 dalam pengujian tersebut daripada akan ada jika semua percobaan dijalankan sampai pada kesimpulan. Tetapi itu tidak berarti praktik itu salah; biaya kesalahan tipe 1, secara moral, mungkin lebih rendah daripada menolak pengobatan secepat yang seharusnya dilakukan untuk perawatan yang benar-benar terbukti bekerja pada akhir percobaan penuh.

dmk38
sumber
Silakan lihat komentar saya untuk jawaban Aniko, karena saya akan menanyakan pertanyaan yang sama tentang Anda: dapatkah Anda memberikan demonstrasi yang lebih keras?
whuber
Saya tunduk pada Aniko - dia melakukan pekerjaan yang lebih baik daripada yang saya bisa. Tetapi jika Anda setuju bahwa "efek meja laci" menghasilkan bias, logika di sini identik. Ada bias dalam mendukung data yang mendukung hipotesis - dalam kasus sebelumnya b / c data yang tidak mendukung tidak dilaporkan, dalam yang terakhir b / c beberapa fraksi dari data yang tidak didukung tentu tidak dikumpulkan: Mengakhiri percobaan awal ketika hasil terlihat baik mengecualikan bagian dari "hasil buruk" distribusi diisi oleh uji coba yang akan menghasilkan hasil buruk mereka terlambat . Mungkin bias ini dapat disesuaikan untuk - tetapi ada bias yang perlu penyesuaian.
dmk38
@ Dmk Saya hanya mencoba untuk memacu Anda berdua untuk berdebat dengan @Probability, dengan siapa Anda tampaknya sangat tidak setuju ;-).
whuber
1
P(D|H,S,I)
1
@probability Itu adalah salah satu cara untuk melihatnya. Cara lain adalah menghindari hipotesis sekaligus dan menjawab pertanyaan yang sebenarnya diajukan; untuk akal, apa ukuran efek pengobatan ? Dari sudut pandang ini, penghentian dapat terjadi setelah perkiraan diketahui dengan cukup akurat untuk mendukung pengambilan keputusan. Sebagai contoh, kami mungkin ingin memiliki kepercayaan yang tinggi bahwa perolehan kesehatan dari resep pengobatan cenderung melebihi biaya (dan efek samping) dari perawatan.
whuber