Saya mencoba menjalankan regresi OLS:
DV: Perubahan berat badan lebih dari setahun (berat awal - berat akhir)
IV: Apakah Anda berolahraga atau tidak.
Namun, tampaknya masuk akal bahwa orang yang lebih berat akan menurunkan lebih banyak berat badan per unit olahraga daripada orang yang lebih kurus. Jadi, saya ingin memasukkan variabel kontrol:
- CV: Berat awal awal.
Namun, sekarang bobot awal digunakan KEDUA untuk menghitung variabel dependen DAN sebagai variabel kontrol.
Apakah ini baik? Apakah ini melanggar asumsi OLS?
regression
repeated-measures
least-squares
change-scores
ChrisStata
sumber
sumber
Jawaban:
Untuk menjawab pertanyaan literal Anda, "Apakah valid untuk memasukkan ukuran dasar sebagai variabel kontrol ketika menguji pengaruh variabel independen pada skor perubahan?", Jawabannya adalah tidak . Jawabannya adalah tidak, karena dengan konstruksi skor baseline berkorelasi dengan istilah kesalahan ketika skor perubahan digunakan sebagai variabel dependen, maka efek estimasi baseline terhadap skor perubahan tidak dapat diinterpretasikan.
Menggunakan
Satu kemudian memiliki model regresi pada dan ; T XΔ Y T X
Yang menurut definisi setara dengan;
Sekarang, jika Anda memasukkan garis dasar sebagai kovariat, orang akan melihat masalah, karena Anda memiliki istilah di kedua sisi persamaan. Ini menunjukkan bahwa tidak dapat diinterpretasikan, karena secara inheren berkorelasi dengan istilah kesalahan.β 3 Y 1Y1 β3Y1
Sekarang, bagian dari kebingungan dalam berbagai jawaban tampaknya berasal dari kenyataan bahwa model yang berbeda akan menghasilkan hasil yang identik untuk efek pengobatan , dalam formulasi saya di atas. Jadi, jika seseorang membandingkan efek pengobatan untuk model menggunakan skor perubahan sebagai variabel dependen dengan model menggunakan "level" (dengan masing-masing model termasuk garis dasar sebagai kovariat), interpretasi dari efek pengobatan akan menjadi sama. Dalam dua model yang mengikuti akan sama, demikian juga kesimpulan berdasarkan pada mereka (Bruce Weaver memiliki beberapa kode SPSS yang diposting menunjukkan kesetaraan juga).Y 1 β 1 Tβ1T Y1 β1T
Jadi beberapa akan berdebat (seperti yang Felix miliki di utas ini, dan seperti yang dilakukan Bruce Weaver pada beberapa diskusi di grup SPSS google) bahwa karena model menghasilkan perkiraan efek pengobatan yang sama, tidak masalah yang mana yang Anda pilih. Saya tidak setuju, karena kovariat awal dalam model skor perubahan tidak dapat diartikan, Anda tidak boleh memasukkan baseline sebagai kovariat (terlepas dari apakah efek pengobatan yang diperkirakan sama atau tidak). Jadi ini memunculkan pertanyaan lain, apa gunanya menggunakan skor perubahan sebagai variabel dependen? Seperti yang telah dicatat Felix juga, model yang menggunakan skor perubahan sebagai variabel dependen tidak termasuk baseline sebagai kovariat berbeda dari model yang menggunakan level. Untuk memperjelas, model-model selanjutnya akan memberikan efek pengobatan yang berbeda (terutama dalam kasus bahwa perawatan berkorelasi dengan baseline);
Ini telah dicatat dalam literatur sebelumnya sebagai "Paradox Tuhan". Jadi model mana yang benar? Nah, dalam kasus percobaan acak, saya akan mengatakan model Levels lebih disukai (meskipun jika Anda melakukan pekerjaan acak yang baik, efek pengobatan rata-rata harus sangat dekat antara model). Yang lain telah mencatat alasan mengapa model level lebih disukai, jawaban Charlie membuat poin yang bagus karena Anda dapat memperkirakan efek interaksi dengan baseline dalam model level (tetapi Anda tidak bisa dalam model skor perubahan). Whuber dalam respons ini untuk pertanyaan yang sangat mirip menunjukkan bagaimana skor perubahan menginduksi korelasi antara perawatan yang berbeda.
Dalam situasi di mana perawatan tidak diberikan secara acak, model yang menggunakan skor perubahan sebagai variabel dependen harus lebih dipertimbangkan. Manfaat utama dari model skor perubahan, adalah bahwa setiap prediktor invarian hasil dikendalikan untuk. Jadi katakanlah dalam formulasi di atas, adalah konstan sepanjang waktu (misalnya mengatakan kecenderungan genetik berada pada berat tertentu), dan bahwa berkorelasi dengan apakah seseorang memilih untuk berolahraga (dan tidak diobservasi). Dalam hal itu, model skor perubahan lebih disukai. Juga dalam kasus di mana pemilihan ke dalam pengobatan berkorelasi dengan nilai awal, model skor perubahan mungkin lebih disukai. Paul Allison dalam makalahnya,X XX X X Ubah Skor sebagai Variabel Dependen dalam Analisis Regresi , memberikan contoh yang sama (dan sebagian besar memengaruhi perspektif saya tentang topik tersebut, jadi saya sangat menyarankan untuk membacanya).
Ini bukan untuk mengatakan bahwa skor perubahan selalu lebih baik di pengaturan non-acak. Dalam hal Anda mengharapkan baseline memiliki efek kausal yang sebenarnya pada berat post, Anda harus menggunakan model level. Dalam hal Anda mengharapkan garis dasar memiliki efek kausal, dan pemilihan ke dalam pengobatan berkorelasi dengan garis dasar, efek pengobatan dikacaukan dengan efek garis dasar.
Saya telah mengabaikan catatan oleh Charlie bahwa logaritma bobot dapat digunakan sebagai variabel dependen. Meskipun saya tidak ragu itu bisa menjadi kemungkinan, ini agak tidak berurutan untuk pertanyaan awal. Pertanyaan lain telah dibahas ketika layak untuk menggunakan logaritma variabel (dan mereka masih berlaku dalam kasus ini). Mungkin ada literatur sebelumnya tentang subjek yang akan membantu memandu Anda apakah menggunakan berat badan yang masuk juga tepat.
Kutipan
Allison, Paul D. 1990. Ubah skor sebagai variabel dependen dalam analisis regresi . Metodologi Sosiologis 20: 93-114. Versi PDF publik .
sumber
Jawaban Andy tampaknya adalah pandangan para ekonom tentang berbagai hal. Ini adalah praktik yang diterima dalam uji klinis untuk hampir selalu menyesuaikan untuk versi awal dari variabel respon, untuk meningkatkan daya. Karena kami mengkondisikan pada variabel dasar tidak ada 'istilah kesalahan' bagi mereka untuk menjadi bingung dengan istilah kesalahan keseluruhan. Satu-satunya masalah adalah jika kesalahan pengukuran dalam kovariat dasar dikacaukan dengan X lain, mendistorsi efek X lainnya. Metode keseluruhan yang disukai adalah untuk menyesuaikan baseline dan untuk memodelkan variabel respons, bukan menghitung perubahan. Salah satu alasan untuk ini adalah bahwa perubahan sangat bergantung pada mendapatkan transformasi Y yang benar, dan perubahan itu tidak berlaku untuk model regresi secara umum. Misalkan jika Y adalah ordinal, perbedaan antara dua variabel ordinal tidak lagi ordinal.
sumber
Kita dapat mengubah sedikit alasan @ ocram agar
Jadi, jika ini adalah model yang tepat , mengatakan bahwa perbedaannya tergantung pada berat menyiratkan bahwa nilai akhir tergantung pada nilai awal dengan koefisien yang bisa apa saja. Menjalankan regresi perbedaan pada dan atau bobot akhir pada variabel yang sama akan memberi Anda koefisien yang sama pada segala sesuatu kecuali . Tetapi, jika model ini tidak sepenuhnya benar, regresi ini akan memberikan hasil yang berbeda pada koefisien lainnya juga.w 0 w 0x w0 w0
Perhatikan bahwa pengaturan ini menyiratkan bahwa berat awal memprediksi perbedaan dalam bobot, bukan dampak pengobatan . Ini membutuhkan istilah interaksi, mungkin
Pendekatan lain adalah menghitung sini, adalah tingkat pertumbuhan bobot. Ini bisa jadi hasil Anda. Koefisien Anda pada akan memberi tahu Anda bagaimana prediksi ini terkait dengan perubahan proporsi bobot. Ini "mengontrol" berat awal dengan mengatakan bahwa, misalnya, rezim olahraga yang mengurangi berat badan sebesar 10% (koefisien 0,1 dikalikan dengan 100%) untuk seseorang yang bobotnya 130 pon mengurangi berat sebanyak 13 pon, sementara program mengurangi berat peserta 200 pon dengan 20 pon. Dalam hal ini, Anda mungkin tidak perlu memasukkan bobot awal (atau log-nya) di sisi kanan.rx
Istilah interaksi mungkin masih diperlukan jika Anda yakin bahwa dampak program tergantung pada bobot awal. Jika Anda menggunakan dalam istilah interaksi, maka program akan dikaitkan dengan perubahan dalam tingkat pertumbuhan berat. Setiap pon lebih berat dari seseorang pada awal program menyebabkan peningkatan dalam perubahan dalam tingkat pertumbuhan (ini adalah turunan lintas-parsial dari nilai yang diharapkan sehubungan dengan pengobatan dan berat mulai).w 0 β 1 β 1w0 w0β1 β1
Jika Anda menggunakan dalam istilah interaksi, dampak program meningkat sebesar untuk setiap pound tambahan yang lebih berat peserta berada di awal program.β 1 / w 0log( b0) β1/ w0
Seperti yang Anda lihat, cross-parsial pada istilah interaksi bisa menjadi agak sulit untuk ditafsirkan, tetapi mereka mungkin menangkap dampak yang Anda minati.
sumber
EDIT: Argumen Andy W meyakinkan saya untuk menjatuhkan Model C. Saya menambahkan kemungkinan lain: Menganalisis perubahan dengan Model Koefisien Acak (alias Model Bertingkat atau Model Efek Campuran)
Ada banyak perdebatan ilmiah tentang penggunaan skor perbedaan. Teks favorit saya adalah Rogosa (1982, [1]) dan Fitzmaurice, Laird, & Ware (2004, [2])
Secara umum, Anda memiliki tiga kemungkinan untuk menganalisis data Anda:
C) Ambil skor perbedaan sebagai DV dan kendalikan untuk baseline (itulah model yang Anda sarankan).Karena argumen Andy W, saya menjatuhkan alternatif iniModel A dan B dapat menghasilkan hasil yang sangat berbeda jika garis dasar berkorelasi dengan skor perubahan (misalnya, orang yang lebih berat memiliki lebih banyak penurunan berat badan), dan / atau penugasan pengobatan berkorelasi dengan garis dasar.
Jika Anda ingin tahu lebih banyak tentang masalah ini, lihat makalah yang dikutip, atau di sini dan di sini .
Ada juga studi simulasi terbaru [3] yang secara empiris membandingkan kondisi di mana A atau B lebih disukai.
Untuk desain yang benar-benar seimbang tanpa nilai yang hilang, Model D harus setara dengan Model A. Namun, ini memberi Anda informasi lebih lanjut tentang variabilitas orang, mudah diperluas ke titik pengukuran yang lebih banyak, dan memiliki sifat yang bagus di hadapan data yang tidak seimbang dan / atau nilai yang hilang.
Sebagai garis bawah: Dalam kasus Anda, saya akan menganalisis langkah-langkah yang dikontrol untuk baseline (Model B).
[1] Rogosa, D., Brandt, D., & Zimowski, M. (1982). Pendekatan kurva pertumbuhan untuk pengukuran perubahan. Buletin Psikologis, 92, 726-748.
[2] Fitzmaurice, GM, Laird, NM, & Ware, JH (2004). Analisis longitudinal yang diterapkan. Hoboken, NJ: Wiley.
[3] Petscher, Y., & Schatschneider, C., 2011. Studi Simulasi tentang Kinerja Perbedaan Sederhana dan Skor Kovarians yang Disesuaikan dalam Desain Eksperimental Acak. Jurnal Pengukuran Pendidikan, 48, 31-43.
sumber
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
?, Siapa yang menunjukkan kesetaraan B dan C?Lihat Josh Angrist tentang pertanyaan ini: http://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/ . Dia turun sebagian besar terhadap termasuk DV tertinggal dalam model Anda. Tidak ada dalam tanggapannya yang tidak ada dalam tanggapan di atas, tetapi jawaban yang lebih ringkas untuk pertanyaan Anda dapat membantu.
sumber
Glymour et al. (2005) ditangani dengan menggunakan penyesuaian baseline ketika menganalisis skor perubahan. Jika perubahan status kesehatan mendahului penilaian awal atau ada kesalahan pengukuran besar dalam variabel dependen, mereka menemukan bahwa bias dapat muncul jika model regresi menggunakan skor perubahan sebagai variabel dependen termasuk kovariat baseline. Jawaban Frank Harrell "Satu-satunya masalah adalah jika kesalahan pengukuran dalam kovariat awal dikacaukan dengan X lain, mendistorsi efek X lainnya." mungkin mencerminkan bias yang sama dengan alamat Glymour.
Glymour (2005) "Kapan Penyesuaian Dasar Berguna dalam Analisis Perubahan? Contoh dengan Pendidikan dan Perubahan Kognitif. American Journal of Epidemiology 162: 267-278
sumber
Ocram tidak benar. Perbedaan bobot tidak memperhitungkan bobot awal. Secara khusus, berat awal adalah jenis yang diambil dengan mengurangi berat akhir dari itu.
Oleh karena itu, saya berpendapat bahwa itu tidak melanggar asumsi jika Anda mengontrol berat awal.
(Logika yang sama berlaku jika Anda mengambil perbedaan BMI dan BMI awal.)
Pembaruan
Setelah kritik Andy W membuat saya lebih formal tentang mengapa saya benar dan Ocram salah (setidaknya dari sudut pandang saya).
Jika Anda ingin memperhitungkannya, Anda perlu memasukkannya ke dalam model Anda secara terpisah (sebagai parameter biasa dan / atau sebagai istilah interaksi).
sumber
Perhatikan itu
setara dengan
Dengan kata lain, menggunakan perubahan berat (bukan berat akhir itu sendiri) sebagai DV sudah memperhitungkan berat awal.
sumber