Apa hubungan antara metode seperti pencocokan dan pengendalian statistik untuk variabel?

10

Seringkali dalam artikel penelitian yang Anda baca, para peneliti mengendalikan variabel-variabel tertentu. Ini dapat dilakukan dengan metode seperti pencocokan, pemblokiran, dll.

Tetapi saya selalu berpikir bahwa mengendalikan variabel adalah sesuatu yang dilakukan secara statistik dengan mengukur beberapa variabel yang dapat memengaruhi dan melakukan beberapa analisis statistik pada variabel tersebut, yang dapat dilakukan dalam eksperimen benar dan semu. Jadi, misalnya Anda akan memiliki survei atau tes lain di mana Anda akan mengukur variabel independen dan beberapa variabel yang mungkin membingungkan dan melakukan beberapa analisis.

Apakah mungkin untuk mengontrol variabel dalam eksperimen semu?
Apa hubungan antara metode seperti pencocokan dan pengendalian statistik untuk variabel?

experiment-design random-variable controlling-for-a-variable Renée Damstra
sumber

1

Apakah Anda melihat pertanyaan ini: bagaimana-tepatnya-satu-kontrol-untuk-variabel-lain ?

gung - Reinstate Monica

6

Seperti halnya AdamO, saya pikir kunci untuk menjawab pertanyaan ini adalah gagasan tentang inferensial kausal, dan bagaimana mendapatkan "ke arah" model kausal menggunakan pengaturan observasional.

Dalam dunia yang sempurna, kita akan memiliki sesuatu yang disebut populasi kontrafaktual - populasi penelitian, identik dalam semua hal kecuali untuk satu hal yang kami minati. Perbedaan antara kedua populasi itu, berdasarkan perbedaan itu, adalah hasil kausal yang benar.

Jelas, kita tidak dapat memiliki ini.

Namun ada beberapa cara untuk mencoba mendekatinya:

Pengacakan: Ini secara teoritis (jika pengacakan dilakukan dengan benar) harus memberi Anda dua populasi yang identik, kecuali untuk perawatan pasca-pengacakan.
Stratifikasi: Anda dapat melihat populasi dalam level kovariat, tempat Anda membuat perbandingan "suka dengan seperti". Ini berfungsi baik untuk sejumlah kecil level, tetapi dengan cepat menjadi rumit.
Pencocokan: Pencocokan adalah upaya untuk mengumpulkan populasi studi sedemikian rupa sehingga Grup A menyerupai Grup B, dan karenanya dapat menerima perbandingan.
Penyesuaian statistik: Termasuk kovariat dalam model regresi memungkinkan untuk estimasi efek dalam level kovariat - sekali lagi, membandingkan suka dengan suka, atau setidaknya berusaha.

Semua adalah upaya untuk lebih dekat dengan populasi kontrafaktual itu. Cara terbaik untuk mendapatkannya tergantung pada apa yang ingin Anda keluarkan, dan seperti apa studi Anda.

Fomite
sumber

Penjelasan yang luar biasa. Jauh lebih ringkas dan lebih baik menjawab pertanyaan awal. Izinkan saya menambahkan bahwa dari metode ini, hanya penyesuaian statistik yang tahan terhadap masalah memiliki strata kosong. Dalam sebuah studi kasus-kontrol, jika kita ingin mengelompokkan populasi berdasarkan usia, pencocokan, stratifikasi, dan (blok) pengacakan berdasarkan usia membutuhkan pengerasan atau binning untuk membandingkan kasus berusia 50 tahun dengan kontrol berusia 51 tahun.

AdamO

Namun, dalam regresi logistik, Anda dapat menggunakan informasi berkelanjutan untuk secara implisit meminjam informasi lintas kelompok, seperti dengan usia yang disesuaikan secara linier atau basis spline untuk membuat perbandingan itu. Ini menjadikan pemodelan regresi sebagai salah satu metodologi statistik paling kuat dan berguna.

AdamO

@AdamO Setuju - dalam jawaban saya dalam pertanyaan yang ditautkan di atas, saya menyebutkan bahwa itu dapat digunakan untuk memuluskan area tanpa informasi, selama kurangnya informasi disebabkan oleh kebetulan dan binning. Tapi ya - ada alasan mengapa regresi itu mengagumkan.

Fomite

2

Saya pikir pemodelan kausal adalah kunci untuk menjawab pertanyaan ini. Seseorang dihadapkan pada permulaan untuk mengidentifikasi efek kepentingan yang disesuaikan / dikelompokkan / dikontrol dengan benar sebelum bahkan melihat data. Jika saya memperkirakan hubungan tinggi / kapasitas paru-paru pada orang dewasa, saya akan menyesuaikan dengan status merokok karena merokok menghambat pertumbuhan dan mempengaruhi kapasitas paru-paru. Perancu adalah variabel yang secara kausal terkait dengan prediktor minat dan dikaitkan dengan hasil yang diinginkan. Lihat Kausalitas dari Mutiara Judea, edisi ke-2. Seseorang harus menentukan dan memberi daya analisis mereka untuk variabel pengganggu yang benar sebelum proses pengumpulan data bahkan mulai menggunakan logika rasional dan pengetahuan sebelumnya dari studi eksplorasi sebelumnya.

$R^2$ untuk model linier untuk variabel penyesuaian ini. Proses lain yang umum dalam epidemiologi adalah ketika variabel hanya ditambahkan ke model jika mereka mengubah perkiraan efek utama (seperti rasio odds atau rasio bahaya) paling tidak 10%. Meskipun ini "lebih" benar daripada pemilihan model berbasis AIC, saya masih berpikir ada peringatan utama dalam pendekatan ini.

Rekomendasi saya adalah menetapkan analisis yang diinginkan sebagai bagian dari hipotesis. Risiko merokok / kanker yang disesuaikan usia adalah parameter yang berbeda, dan mengarah pada kesimpulan berbeda dalam studi terkontrol dibandingkan risiko merokok / kanker. Menggunakan pengetahuan materi pelajaran adalah cara terbaik untuk memilih prediktor untuk penyesuaian dalam analisis regresi, atau sebagai variabel stratifikasi, pencocokan, atau pembobotan dalam berbagai jenis analisis "terkontrol" lainnya dari desain eksperimental dan quasiexperimental.

AdamO
sumber

2

Kisah tentang hubungan antara pencocokan dan regresi dirangkum secara singkat dalam posting blog di sini . Pendeknya

"Regres pada D [indikator pengobatan] satu set penuh model boneka (yaitu, jenuh) untuk X [kovariat]. Perkiraan yang dihasilkan dari efek D sama dengan pencocokan pada X, dan pembobotan di seluruh sel kovariat oleh varians perawatan bersyarat pada X "

Lihat juga bagian 3.3 dari Ekonometrika yang Paling Tidak Berbahaya atau bagian 5.3 dari Counterfactuals dan Inferensial Kausal untuk diskusi menyeluruh, termasuk pro dan kontra dari pembobotan D yang diberikan X yang disediakan oleh regresi secara implisit.

@EpiGrad memberikan awal yang baik untuk pertanyaan pertama Anda. Buku-buku yang terhubung di atas memperlakukannya hampir secara eksklusif. Jika Anda tidak memiliki latar belakang sains / matematika komputer, Anda mungkin menemukan Pearl susah payah (meskipun layak pada akhirnya!)

conjugateprior
sumber

Apa hubungan antara metode seperti pencocokan dan pengendalian statistik untuk variabel?

Jawaban: