Ketika kita membandingkan kelompok pada variabel kontrol, haruskah kita menggunakan tes kesetaraan?

13

Dalam banyak makalah yang mempertimbangkan perawatan dan hasil, saya melihat tabel (biasanya "tabel 1") dari apa yang dapat disebut variabel gangguan (sering demografi, kadang-kadang kondisi medis) dengan tes signifikansi dan teks seperti "kelompok-kelompok yang secara umum mirip, ada tidak ada perbedaan signifikan di XXXXX, lihat Tabel ". Jadi tujuan yang jelas adalah untuk menunjukkan bahwa kelompok-kelompok yang ditugaskan untuk perawatan berbeda serupa.

Namun, ini bagi saya sepertinya bisa "menerima nol" dan bahwa apa yang harus kita lakukan (atau menuntut dilakukan) adalah tes kesetaraan.

Ini bisa berlaku untuk percobaan acak atau untuk studi observasi. Apakah saya melewatkan sesuatu di sini?

Peter Flom - Pasang kembali Monica
sumber
1
Saya kira Anda mengacu pada 'tabel 1'. Apakah Anda bertanya tentang RCT saja, atau juga penelitian observasional?
gung - Reinstate Monica
@ung ya, biasanya Tabel 1. Ini bisa berupa studi observasional atau RCT. Saya mengedit pertanyaan saya untuk mencerminkan komentar Anda.
Peter Flom - Reinstate Monica
1
Bahkan jika saya mengambil risiko menyatakan yang sudah jelas: Ada beberapa makalah yang membahas masalah ini (misalnya de Boer et al. (2015) ). Saya pikir konsekuensinya adalah bahwa pengujian hipotesis harus ditinggalkan dalam tabel baseline. The CONSORT Pernyataan untuk uji klinis serta STROBE Pernyataan untuk studi observasional sarankan menghindari pengujian hipotesis dalam tabel dasar. Jika tes kesetaraan lebih baik, saya tidak tahu.
COOLSerdash
Apakah Anda menguji terhadap nol atau menguji kesetaraan tergantung pada motivasi dan mempengaruhi diskusi yang dapat ditarik dari tabel. Menyatakan kesetaraan adalah kondisi yang sangat kuat dan saya kira tidak perlu untuk sebagian besar kasus kecuali jika penulis ingin menarik kesimpulan yang kuat tentang demografi dll. Akan lebih baik dan lebih tepat memiliki prosedur formal untuk mengukur risiko bias yang bias pada ketidakseimbangan dalam terkait demografi. Saya belum melihat itu tetapi akan tertarik pada pendapat orang lain seperti apa yang terlihat.
ReneBt

Jawaban:

10

Ini adalah masalah rumit yang memperkenalkan banyak masalah terkait: 1) dengan jelas menetapkan hipotesis, 2) memahami apa mekanisme kausal (mungkin) yang mendasari efek hipotesis dan 3) pilihan / gaya presentasi.

Anda benar sedang itu, jika kita menerapkan praktek statistik suara, klaim bahwa "kelompok yang sama", salah satu harus melakukan tes kesetaraan. Namun, uji kesetaraan mengalami masalah yang sama dengan mitra NHST mereka: daya hanyalah refleksi dari ukuran sampel dan jumlah perbandingan: kami mengharapkan perbedaan, tetapi tingkat dan efeknya pada analisis utama jauh lebih penting.

Ketika dihadapkan pada situasi-situasi ini, perbandingan-perbandingan dasar hampir selalu merah. Metode yang lebih baik (sains dan statistik) dapat diterapkan. Saya memiliki beberapa konsep saham / tanggapan yang saya pertimbangkan ketika menjawab pertanyaan seperti ini.

Kolom "total" lebih penting daripada kolom split-by-treatment; diskusi dijamin dari nilai - nilai tersebut.

Dalam uji klinis, sampel keselamatan biasanya dianalisis. Ini adalah bagian dari mereka yang pertama kali didekati, kemudian disetujui, kemudian diacak, dan akhirnya terpapar pada setidaknya satu iterasi kontrol atau perawatan. Dalam proses itu, kita menghadapi berbagai tingkat bias partisipasi.

Mungkin aspek yang paling penting dan dihilangkan dari penelitian ini adalah menyajikan Tabel 1 hasil agregat . Ini mencapai tujuan paling penting dari Tabel 1: menunjukkan kepada peneliti lain bagaimana generalisasi sampel penelitian adalah untuk populasi yang lebih luas di mana hasilnya berlaku.

Saya menemukan itu mengejutkan bagaimana simpatisan peneliti, pembaca, dan peninjau pada tren tangensial dalam karakteristik pasien ketika ada benar-benar mengabaikan kriteria inklusi / eksklusi dan generalisasi sampel.

Saya malu untuk mengatakan saya adalah seorang analis pada persidangan yang mengabaikan ini sebagai masalah. Kami merekrut pasien dan kemudian, karena masalah logistik, kami menunggu hampir setahun sebelum menerapkan intervensi. Tidak hanya diagram selir menunjukkan penurunan besar antara periode-periode itu, tetapi sampel bergeser. Hasilnya sebagian besar tidak bekerja / menganggur, lebih tua, dan lebih sehat daripada orang-orang yang ingin kami jangkau. Saya memiliki keprihatinan mendalam tentang generalisasi dari penelitian ini, tetapi sulit untuk melobi agar keprihatinan itu diketahui.

Kekuatan dan kesalahan Tipe-I dari tes untuk mendeteksi ketidakseimbangan dalam karakteristik awal tergantung pada jumlah aktual karakteristik

Inti dari penyajian daftar variabel variabel yang terperinci, seperti yang disebutkan sebelumnya, adalah untuk memberikan gambaran menyeluruh tentang sampel; riwayat pasien, laboratorium, obat-obatan, dan demografi mereka. Ini semua adalah aspek yang digunakan dokter untuk merekomendasikan perawatan kepada pasien. Mereka semua diyakini memprediksi hasilnya. Tetapi jumlah faktor seperti itu mengejutkan. Sebanyak 30 variabel berbeda dapat dibandingkan. Risiko kasar kesalahan Tipe I adalah 1- (1-0.05) ^ 30 = 0,79. Bonferroni atau koreksi permutasi disarankan jika pengujian harus dilakukan.

Pengujian statistik dalam bentuk paling murni dimaksudkan untuk tidak memihak, dan seharusnya ditentukan sebelumnya. Namun, pilihan dan presentasi karakteristik dasar seringkali relatif. Saya merasa pendekatan yang terakhir ini tepat: jika kita menemukan, seperti dalam percobaan saya, ada sifat-sifat menarik yang menggambarkan sampel secara efektif, kita harus memiliki kebebasan untuk memilih untuk menyajikan nilai-nilai tersebut secara ad hoc . Pengujian dapat dilakukan jika ada nilainya, tetapi peringatan biasanya berlaku: mereka bukan hipotesis yang menarik, ada risiko kebingungan yang tinggi seperti apa yang menyiratkan hasil signifikan dan tidak signifikan, dan hasilnya lebih merupakan refleksi dari ukuran sampel dan pertimbangan presentasi daripada kebenaran apa pun.

Rerandomisasi dapat dilakukan, tetapi hanya sebelum pasien terkena pengobatan

Seperti yang saya sebutkan, sampel yang dianalisis biasanya sampel keselamatan. Namun, rerandomisasi adalah pendekatan yang sangat dianjurkan dan secara teoritis konsisten untuk pasien yang belum pernah terpapar pengobatan. Ini hanya berlaku untuk pengaturan di mana pendaftaran batch dilakukan. Di sini, 100 peserta direkrut dan diacak. Jika, misalnya, probabilitas menetapkan proporsi orang tua yang tinggi ke satu kelompok, maka sampel dapat direrandomisasi untuk menyeimbangkan usia. Ini tidak dapat dilakukan dengan pendaftaran berurutan atau terhuyung-huyung, yang merupakan pengaturan di mana sebagian besar uji coba dilakukan. Ini karena waktu pendaftaran cenderung untuk memprediksi status pasien dengan "bias" kasus yang lazim (insiden membingungkan dan kriteria kelayakan yang lazim).

Desain yang seimbang bukanlah persyaratan untuk inferensi yang valid

Asumsi pengacakan mengatakan bahwa, secara teoritis, semua peserta akan memiliki rata-rata distribusi kovariat yang sama. Namun, seperti yang disebutkan sebelumnya, ketika membandingkan 30 level atau lebih, probabilitas kumulatif ketidakseimbangan tidak dapat diabaikan. Faktanya, ketidakseimbangan kovariat mungkin tidak relevan ketika mempertimbangkan keseluruhan.

Jika pengacakan itu adil, kita mungkin melihat usia meningkat pada kelompok perlakuan, tetapi merokok meningkat pada kelompok kontrol: keduanya berkontribusi secara individual terhadap risiko hasil. Apa yang diperlukan untuk inferensi yang efisien dan valid adalah bahwa skor kecenderungan seimbang antara kelompok. Ini adalah kondisi yang jauh lebih lemah. Sayangnya, kecenderungan tidak dapat diperiksa untuk keseimbangan tanpa model risiko. Namun, mudah untuk melihat bahwa kecenderungan seperti itu tergantung pada kombinasi kovariat, dan kemungkinan ketidakseimbangan dalam kecenderungan dalam sampel acak jauh lebih kecil kemungkinannya, meskipun tidak mungkin untuk menunjukkan dengan tepat.

Jika model risiko diketahui, atau ada prediksi kuat dari hasilnya, RCT yang lebih efisien dan valid dilakukan dengan hanya menyesuaikan faktor-faktor tersebut terlepas dari apakah mereka seimbang antara kelompok perlakuan.

Salah satu makalah favorit saya, 7 mitos uji coba terkontrol secara acak , membahas hal ini. Penyesuaian meningkatkan efisiensi ketika variabel penyesuaian sangat memprediksi hasil. Ternyata bahkan dengan keseimbangan 50/50 sempurna, menggunakan katakanlah pemblokiran acak, atau bahkan sebagai kebetulan tentang bagaimana pengacakan dilakukan, penyesuaian akan menyusut CI, membutuhkan lebih sedikit peserta untuk memiliki studi yang sama kuatnya; ini mengurangi biaya dan risiko. Sangat mengejutkan bahwa ini tidak dilakukan lebih sering.

Studi observasional membutuhkan kontrol untuk mengacaukan terlepas dari apa yang ditunjukkan Tabel 1

Asumsi pengacakan menghilangkan perancu. Dengan pengobatan non-acak, ada yang membingungkan. Perancu adalah variabel yang merupakan penyebab dari hasil dan memprediksi penerimaan pengobatan kuasi-eksperimental. Tidak ada tes untuk menentukan variabel mana yang merupakan perancu. Risiko mengintip ke dalam data untuk menjawab pertanyaan-pertanyaan ini adalah bahwa perancu secara virtual tidak dapat dibedakan dari mediator atau colliders tanpa pengukuran nilai longitudinal yang benar-benar sempurna (dan bahkan kemudian ...). Menyesuaikan mediator melemahkan efek apa pun, penyesuaian collider dapat menyebabkan segala jenis bias. Lebih jauh, seseorang tidak perlu menyesuaikan total perancu, tetapi mereka harus menghapus kriteria pintu belakang.

Misalnya, dalam studi fungsi paru-paru dan merokok pada remaja: anak-anak yang lebih besar lebih cenderung merokok, tetapi karena mereka lebih tinggi, fungsi paru-paru mereka lebih besar. Ternyata penyesuaian untuk ketinggian saja sudah cukup untuk menghilangkan pembaur karena memenuhi kriteria pintu belakang. Penyesuaian lebih lanjut untuk usia hanya kehilangan efisiensi. Namun, hanya memeriksa "keseimbangan" tabel 1 pada perokok dan non-perokok akan menunjukkan bahwa baik usia dan tinggi badan "tidak seimbang" dan karenanya harus dikontrol. Itu tidak benar.

AdamO
sumber
1
Saya setuju dengan ini dan saya sangat menyadari masalah dengan nilai p. (Anda akan menemukan beberapa orang di situs ini atau lebih anti-p value daripada saya). Dan saya semua untuk metode yang lebih baik, beberapa di antaranya Anda tingkatkan. Tentu saja, beberapa variabel bisa menjadi penekan (sehingga termasuk mereka meningkatkan ukuran efek utama). Namun, jika saya, misalnya, meninjau makalah untuk jurnal, apakah menurut Anda merekomendasikan tes kesetaraan untuk tabel 1 adalah baik, atau apakah Anda akan mencari jawaban lengkap di sini?
Peter Flom - Reinstate Monica
1
@ PeterFlom Saya melihat konteksnya sedikit lebih baik sekarang. Sebagai peninjau statistik, saya akan mempertimbangkan apakah komentar tersebut relevan dengan analisis selanjutnya. Jika tidak relevan, saya akan mendorong mereka untuk mengeluarkan komentar karena itu tidak berguna. Jika relevan, saya akan mendorong mereka untuk a) mempertimbangkan pendekatan analisis yang lebih kuat atau b) menggunakan analisis sensitivitas untuk menentukan apakah ada pengaruh yang mungkin ada. Keseimbangan kovariat hanya penting sejauh itu memengaruhi analisis, jadi di situlah saya lebih suka perhatian diberikan. Mungkin itu bukan desain yang cocok dengan kecenderungan, bukan?
AdamO
1
@PeterFlom Sebagai pengulas, tidakkah masuk akal untuk merekomendasikan untuk menyingkirkan nilai-p di "Tabel 1" sekaligus?
Amuba mengatakan Reinstate Monica
1
AdamO, jawaban yang bagus (+1), tapi saya agak khawatir dengan rekomendasi bahwa beberapa penyesuaian pengujian "disarankan" dalam konteks "Tabel 1". Apakah kesalahan Tipe I menjadi perhatian di sini? Saya merasa bahwa dalam kasus ini, kesalahan Tipe II sebenarnya jauh lebih penting (orang tidak mau ketinggalan fakta bahwa beberapa variabel dasar berbeda antara perlakuan dan kelompok kontrol). Menggunakan Bonferroni, kesalahan Tipe II akan sangat meningkat. Ini terkait dengan titik @ Peter tentang tes kesetaraan: dalam arti tertentu, Tipe I dan Tipe II bertukar tempat jika Anda beralih ke sudut pandang "ekivalensi".
Amuba mengatakan Reinstate Monica
1
@amoeba Tentu. Jika kami bersikeras pada pendekatan ini (bukan rekomendasi saya) NHST mengharuskan kami mengendalikan kesalahan Tipe I. Saya pikir poin saya adalah bahwa kita harus mengendalikan FWER karena kita tidak peduli variabel mana yang tidak seimbang. Itu dapat diatur ke nilai yang murah hati seperti 0,2. Saya tidak mengetahui adanya uji kesetaraan yang kekuatannya naik seiring dengan meningkatnya ukuran sampel, sehingga pembenaran untuk tes semacam itu bertele-tele, subyektif, dan tidak tepat.
AdamO