Inilah artikel yang memotivasi pertanyaan ini: Apakah ketidaksabaran membuat kita gemuk?
Saya menyukai artikel ini, dan itu dengan baik menunjukkan konsep "mengendalikan variabel-variabel lain" (IQ, karier, pendapatan, usia, dll) untuk mengisolasi hubungan yang sebenarnya antara hanya 2 variabel yang dipertanyakan.
Bisakah Anda menjelaskan kepada saya bagaimana Anda sebenarnya mengontrol variabel pada set data yang khas?
Misalnya, jika Anda memiliki 2 orang dengan tingkat ketidaksabaran dan BMI yang sama, tetapi pendapatannya berbeda, bagaimana Anda memperlakukan data ini? Apakah Anda mengelompokkannya ke dalam beberapa subkelompok yang memiliki pendapatan, kesabaran, dan BMI yang serupa? Tetapi, pada akhirnya ada lusinan variabel yang harus dikontrol (IQ, karier, pendapatan, usia, dll.) Bagaimana kemudian Anda menjumlahkan 100 subkelompok (berpotensi) ini? Sebenarnya, saya merasa pendekatan ini menggonggong pohon yang salah, sekarang saya sudah mengucapkannya secara lisan.
Terima kasih telah menjelaskan sesuatu yang ingin saya sampaikan selama beberapa tahun sekarang ...!
Jawaban:
Ada banyak cara untuk mengontrol variabel.
Yang paling mudah, dan yang Anda hasilkan, adalah dengan stratifikasi data Anda sehingga Anda memiliki sub-kelompok dengan karakteristik yang sama - kemudian ada metode untuk menyatukan hasil-hasil tersebut bersama-sama untuk mendapatkan "jawaban" tunggal. Ini berfungsi jika Anda memiliki sejumlah kecil variabel yang ingin Anda kontrol, tetapi karena Anda sudah benar menemukan, ini dengan cepat berantakan ketika Anda membagi data Anda menjadi potongan yang lebih kecil dan lebih kecil.
Pendekatan yang lebih umum adalah memasukkan variabel yang ingin Anda kontrol dalam model regresi. Misalnya, jika Anda memiliki model regresi yang dapat secara konseptual digambarkan sebagai:
Perkiraan yang akan Anda dapatkan untuk Ketidaksabaran akan menjadi efek dari Ketidaksabaran dalam level kovariat lainnya - regresi memungkinkan Anda untuk secara mendasar memuluskan tempat-tempat di mana Anda tidak memiliki banyak data (masalah dengan pendekatan stratifikasi), meskipun ini harus dilakukan dengan hati-hati.
Ada cara yang lebih canggih untuk mengendalikan variabel lain, tetapi kemungkinannya adalah ketika seseorang mengatakan "dikendalikan untuk variabel lain", itu berarti mereka dimasukkan dalam model regresi.
Baiklah, Anda sudah meminta contoh yang bisa Anda kerjakan, untuk melihat bagaimana hasilnya. Saya akan memandu Anda melalui langkah demi langkah. Yang Anda butuhkan hanyalah salinan R yang terinstal.
Pertama, kita perlu beberapa data. Potong dan rekatkan potongan kode berikut ke dalam R. Perlu diingat ini adalah contoh yang dibuat-buat yang saya buat saat itu juga, tetapi ini menunjukkan prosesnya.
Itu data Anda. Perhatikan bahwa kita sudah tahu hubungan antara hasil, paparan, dan kovariat - itulah poin dari banyak studi simulasi (yang ini adalah contoh yang sangat mendasar. Anda mulai dengan struktur yang Anda tahu, dan Anda memastikan metode Anda dapat memberi Anda jawaban yang tepat.
Nah, ke model regresi. Ketikkan yang berikut ini:
Apakah Anda mendapatkan Intercept = 2.0 dan eksposur = 0.6766? Atau sesuatu yang dekat dengannya, mengingat akan ada beberapa variasi acak dalam data? Bagus - jawaban ini salah. Kami tahu itu salah. Kenapa itu salah? Kami gagal mengontrol variabel yang memengaruhi hasil dan paparan. Ini adalah variabel biner, buat apa saja sesuka Anda - gender, perokok / bukan perokok, dll.
Sekarang jalankan model ini:
Kali ini Anda harus mendapatkan koefisien Intercept = 2.00, paparan = 0,50 dan kovariat 0,25. Seperti yang kita ketahui, ini adalah jawaban yang tepat. Anda sudah mengendalikan variabel lainnya.
Sekarang, apa yang terjadi ketika kita tidak tahu apakah kita sudah mengurus semua variabel yang kita butuhkan (kita tidak pernah benar-benar melakukannya)? Ini disebut residu perancu , dan ini menjadi perhatian dalam sebagian besar penelitian observasional - bahwa kita telah mengendalikan secara tidak sempurna, dan jawaban kita, meskipun mendekati kanan, tidak tepat. Apakah itu membantu lebih banyak?
sumber
pengantar
Saya suka jawaban @ EpiGrad (+1) tetapi biarkan saya mengambil perspektif yang berbeda. Dalam berikut ini saya merujuk pada dokumen PDF ini: "Analisis Regresi Berganda: Estimasi" , yang memiliki bagian tentang "A 'Partialling Out' Interpretation of Multiple Regression" (p. 83f.). Sayangnya, saya tidak tahu siapa penulis bab ini dan saya akan menyebutnya sebagai REGCHAPTER. Penjelasan serupa dapat ditemukan dalam Kohler / Kreuter (2009) "Analisis Data Menggunakan Stata" , bab 8.2.3 "Apa yang dimaksud dengan 'terkendali'?".
Saya akan menggunakan contoh @ EpiGrad untuk menjelaskan pendekatan ini. Kode R dan hasilnya dapat ditemukan di Lampiran.
Juga harus dicatat bahwa "mengendalikan variabel lain" hanya masuk akal ketika variabel penjelas berkorelasi sedang (collinearity). Dalam contoh di atas, korelasi Product-Moment antara
exposure
dancovariate
adalah 0,50, yaitu,Residu
Saya berasumsi bahwa Anda memiliki pemahaman dasar tentang konsep residu dalam analisis regresi. Berikut adalah penjelasan Wikipedia : "Jika seseorang menjalankan regresi pada beberapa data, maka penyimpangan pengamatan variabel dependen dari fungsi pas adalah residual".
Apa artinya 'terkendali'?
Mengendalikan variabel
covariate
, efek (berat regresi) dariexposure
padaoutcome
dapat digambarkan sebagai berikut (saya ceroboh dan melewatkan sebagian besar indeks dan semua topi, silakan merujuk ke teks yang disebutkan di atas untuk penjelasan yang tepat):exposure
padacovariate
, yaitu,"Residual [..] adalah bagian dari yang tidak berkorelasi dengan . [...] Dengan demikian, mengukur hubungan sampel antara dan setelah telah sebagian "(REGCHAPTER 84). "Berpisah" berarti "dikontrol untuk".xi1 xi2 β^1 y x1 x2
Saya akan menunjukkan ide ini menggunakan data contoh @ EpiGrad. Pertama, saya akan mundur
exposure
padacovariate
. Karena saya hanya tertarik dengan residulmEC.resid
, saya menghilangkan hasilnya.Langkah selanjutnya adalah melakukan regresi
outcome
pada residu ini (lmEC.resid
):Seperti yang Anda lihat, bobot regresi untukβlmEC.resid=0.50 0.50
lmEC.resid
(lihat kolom Perkirakan, ) dalam regresi sederhana ini sama dengan bobot regresi berganda untuk , yang juga (lihat jawaban @ EpiGrad atau output R) di bawah).covariate
Lampiran
Kode R
R Output
sumber
Tentu saja beberapa matematika akan terlibat, tetapi tidak banyak: Euclid akan memahaminya dengan baik. Yang benar-benar perlu Anda ketahui adalah cara menambahkan dan mengubah skala vektor. Meskipun ini berjalan dengan nama "aljabar linier" saat ini, Anda hanya perlu memvisualisasikannya dalam dua dimensi. Ini memungkinkan kita untuk menghindari mesin matriks aljabar linier dan fokus pada konsep.
Kisah Geometris
Pada gambar pertama, adalah jumlah dari dan . (Vektor diskalakan oleh faktor numerik ; huruf Yunani (alpha), (beta), dan (gamma) akan merujuk pada faktor skala numerik tersebut.)y y⋅1 αx1 x1 α α β γ
Angka ini sebenarnya dimulai dengan vektor asli (ditampilkan sebagai garis padat) dan . "Kecocokan" kuadrat terkecil dari ke ditemukan dengan mengambil kelipatan yang paling mendekati pada bidang gambar. Begitulah ditemukan. Mengambil pertandingan ini jauh dari kiri , yang sisa dari terhadap . (Titik " " akan secara konsisten menunjukkan vektor mana yang telah "cocok," "diambil," atau "dikendalikan.")x1 y y x1 x1 y α y y⋅1 y x1 ⋅
Kami dapat mencocokkan vektor lain dengan . Berikut adalah gambar di mana disesuaikan untuk , mengungkapkan sebagai kelipatan dari ditambah sisa nya :x1 x2 x1 β x1 x2⋅1
(Tidak masalah bahwa bidang yang berisi dan dapat berbeda dari bidang yang berisi dan : kedua angka ini diperoleh secara independen satu sama lain. Yang dijamin memiliki kesamaan adalah vektor .) Demikian pula, angka apa pun vektor dapat dicocokkan dengan .x1 x2 x1 y x1 x3,x4,… x1
Sekarang perhatikan bidang yang mengandung dua residu dan . Saya akan mengarahkan gambar untuk membuat horisontal, sama seperti saya mengarahkan gambar sebelumnya untuk membuat horizontal, karena kali ini akan memainkan peran pencocokan:y⋅1 x2⋅1 x2⋅1 x1 x2⋅1
Perhatikan bahwa dalam masing-masing dari tiga kasus, residu adalah tegak lurus terhadap pertandingan. (Jika tidak, kami dapat menyesuaikan kecocokan untuk membuatnya lebih dekat dengan , , atau .)y x2 y⋅1
Gagasan utamanya adalah pada saat kita sampai ke angka terakhir, kedua vektor yang terlibat ( dan ) sudah tegak lurus terhadap , berdasarkan konstruksi. Jadi setiap penyesuaian selanjutnya pada melibatkan perubahan yang semuanya tegak lurus terhadap . Akibatnya, kecocokan baru dan sisa tetap tegak lurus dengan .x2⋅1 y⋅1 x1 y⋅1 x1 γx2⋅1 y⋅12 x1
(Jika vektor lain terlibat, kami akan melanjutkan dengan cara yang sama untuk mencocokkan residualnya to .)x3⋅1,x4⋅1,… x2
Ada satu hal penting lagi yang harus dikemukakan. Konstruksi ini telah menghasilkan sisa yang tegak lurus terhadap dan . Ini berarti bahwa adalah juga sisa di ruang (tiga dimensi alam Euclidean) membentang oleh dan . Yaitu, proses dua langkah pencocokan dan pengambilan residu ini harus menemukan lokasi dalam bidang yang paling dekat dengan . Karena dalam uraian geometris ini, tidak masalah yang mana dari dan lebih dulu, kami menyimpulkan ituy⋅12 x1 x2 y⋅12 x1,x2, y x1,x2 y x1 x2 jika proses dilakukan dalam urutan lain, dimulai dengan sebagai pencocokan dan kemudian menggunakan , hasilnya akan sama.x2 x1
(Jika ada vektor tambahan, kami akan melanjutkan proses "take a matcher" ini sampai masing-masing vektor itu berubah menjadi matcher. Dalam setiap kasus operasi akan sama seperti yang ditunjukkan di sini dan akan selalu terjadi dalam pesawat .)
Aplikasi untuk Regresi Berganda
Proses geometrik ini memiliki interpretasi regresi berganda langsung, karena kolom angka bertindak persis seperti vektor geometrik. Mereka memiliki semua sifat yang kami butuhkan dari vektor (secara aksiomatis) dan karenanya dapat dipikirkan dan dimanipulasi dengan cara yang sama dengan akurasi dan ketelitian matematika yang sempurna. Dalam regresi berganda pengaturan dengan variabel , , dan , tujuannya adalah untuk menemukan kombinasi dan ( dll ) yang paling mendekati . Secara geometris, semua kombinasi dan ( dllX1 X2,… Y X1 X2 Y X1 X2 ) sesuai dengan poin dalam ruang . Menyesuaikan koefisien regresi berganda tidak lebih dari proyeksi vektor ("matching"). Argumen geometris telah menunjukkan hal ituX1,X2,…
Pencocokan dapat dilakukan secara berurutan dan
Urutan pencocokan dilakukan tidak masalah.
Proses "mengeluarkan" korek api dengan mengganti semua vektor lain dengan residu mereka sering disebut sebagai "mengendalikan" korek api. Seperti yang kita lihat dalam gambar, setelah korek api dikendalikan, semua perhitungan selanjutnya melakukan penyesuaian yang tegak lurus terhadap korek tersebut. Jika Anda suka, Anda mungkin berpikir "mengendalikan" sebagai "akuntansi (dalam arti paling tidak sama) untuk kontribusi / pengaruh / efek / asosiasi pencocokan pada semua variabel lainnya."
Referensi
Anda dapat melihat semua ini beraksi dengan data dan kode yang berfungsi dalam jawabannya di https://stats.stackexchange.com/a/46508 . Jawaban itu mungkin lebih menarik bagi orang-orang yang lebih suka aritmatika daripada gambar pesawat. (Meskipun demikian, aritmatika untuk menyesuaikan koefisien sebagai korek api dibawa secara langsung). Bahasa yang cocok adalah dari Fred Mosteller dan John Tukey.
sumber
Sejauh ini ada diskusi yang sangat baik tentang penyesuaian kovariat sebagai cara "mengendalikan variabel lain". Tapi saya pikir itu hanya sebagian dari cerita. Faktanya, ada banyak (lain) desain, model, dan strategi pembelajaran berbasis mesin untuk mengatasi dampak dari sejumlah variabel pengganggu yang mungkin. Ini adalah survei singkat tentang beberapa topik (non-penyesuaian) yang paling penting. Sementara penyesuaian adalah cara yang paling banyak digunakan untuk "mengendalikan" variabel-variabel lain, saya pikir ahli statistik yang baik harus memiliki pemahaman tentang apa yang dilakukannya (dan tidak dilakukan) dalam konteks proses dan prosedur lain.
Sesuai:
Pencocokan adalah metode merancang analisis berpasangan di mana pengamatan dikelompokkan ke dalam kumpulan 2 orang yang serupa dalam aspek terpentingnya. Misalnya, Anda dapat mengambil sampel dua orang yang sesuai dengan pendidikan, pendapatan, masa kerja profesional, usia, status perkawinan, (dll.) Tetapi yang tidak konsisten dalam hal ketidaksabaran mereka. Untuk pemaparan biner, uji berpasangan-t sederhana sudah cukup untuk menguji perbedaan rata-rata dalam pengendalian BMI mereka untuk semua fitur yang cocok. Jika Anda memodelkan paparan kontinu, ukuran analog akan menjadi model regresi melalui asal untuk perbedaan. Lihat Carlin 2005
Bobot
Pembobotan adalah analisis univariat lain yang memodelkan hubungan antara prediktor kontinu atau biner dan hasil sehingga distribusi level eksposur homogen antar kelompok. Hasil ini biasanya dilaporkan sebagai standar seperti kematian standar usia untuk dua negara atau beberapa rumah sakit. Standardisasi tidak langsung menghitung distribusi hasil yang diharapkan dari tingkat yang diperoleh dalam populasi "kontrol" atau "sehat" yang diproyeksikan ke distribusi strata dalam populasi referensi. Standarisasi langsung berlaku sebaliknya. Metode-metode ini biasanya digunakan untuk hasil biner. Bobot skor kecenderunganX Y akun dari probabilitas paparan biner dan kontrol untuk variabel-variabel dalam hal itu. Ini mirip dengan standardisasi langsung untuk eksposur. Lihat Rothman, Modern Epidemiology edisi ke-3.
Pengacakan dan Kuasir Pengacakan
Ini adalah titik yang halus, tetapi jika Anda benar-benar dapat mengacak orang ke kondisi eksperimental tertentu, maka dampak dari variabel lain dikurangi. Ini adalah kondisi yang jauh lebih kuat, karena Anda bahkan tidak perlu tahu apa variabel-variabel lain itu. Dalam pengertian itu, Anda telah "mengendalikan" pengaruh mereka. Ini tidak mungkin dalam penelitian observasional, tetapi ternyata metode skor kecenderungan membuat ukuran probabilistik sederhana untuk paparan yang memungkinkan seseorang untuk menimbang, menyesuaikan, atau mencocokkan peserta sehingga mereka dapat dianalisis dengan cara yang sama seperti studi acak-kuasi. . Lihat Rosenbaum, Rubin 1983 .
Mikrosimulasi
Cara lain untuk mensimulasikan data yang mungkin diperoleh dari studi acak adalah dengan melakukan mikrosimulasi. Di sini, orang benar-benar dapat mengalihkan perhatian mereka ke model seperti pembelajaran mesin yang lebih besar dan lebih canggih. Suatu istilah yang Judea Pearl ciptakan yang saya sukai adalah " Model Oracle ": jaringan kompleks yang mampu menghasilkan prediksi dan perkiraan untuk sejumlah fitur dan hasil. Ternyata seseorang dapat "melipat" informasi model oracle tersebut untuk mensimulasikan hasil dalam kohort seimbang orang yang mewakili kohort acak, seimbang dalam distribusi "variabel kontrol" mereka, dan menggunakan uji rutin t-test sederhana untuk menilai besarnya dan presisi perbedaan yang mungkin terjadi. Lihat Rutter, Zaslavsky, dan Feuer 2012
Penyesuaian, pembobotan, dan penyesuaian kovariat dalam model regresi semuanya memperkirakan asosiasi yang sama, dan dengan demikian semuanya dapat diklaim sebagai cara "mengendalikan" variabel-variabel lainnya .
sumber
Perangkat lunak tidak benar-benar mengontrol variabel. Jika Anda terbiasa dengan notasi matriks regresi , maka Anda mungkin ingat bahwa solusi kuadrat terkecil adalah . Jadi, perangkat lunak mengevaluasi ekspresi ini secara numerik menggunakan metode aljabar linear komputasi.Y=Xβ+ε b=(XTX)−1XTY
sumber