Ukuran efek regresi linier saat menggunakan variabel yang diubah

9

Ketika melakukan regresi linier, sering kali berguna untuk melakukan transformasi seperti transformasi log untuk variabel dependen untuk mencapai konformasi distribusi normal yang lebih baik. Seringkali juga berguna untuk memeriksa beta dari regresi untuk menilai dengan lebih baik ukuran efek / relevansi nyata dari hasil.

Ini menimbulkan masalah bahwa ketika menggunakan misalnya transformasi log, ukuran efek akan berada dalam skala log, dan saya telah diberitahu bahwa karena non-linearitas skala yang digunakan, mengubah-balik beta ini akan menghasilkan nilai-nilai tidak bermakna yang tidak memiliki penggunaan dunia nyata.

Sejauh ini kita biasanya melakukan regresi linier dengan variabel yang diubah untuk memeriksa signifikansi dan kemudian regresi linier dengan variabel asli yang tidak diubah untuk menentukan ukuran efek.

Apakah ada cara yang benar / lebih baik untuk melakukan ini? Untuk sebagian besar kami bekerja dengan data klinis, jadi contoh kehidupan nyata adalah untuk menentukan bagaimana paparan tertentu mempengaruhi variabel yang terus-menerus seperti tinggi, berat badan atau beberapa pengukuran laboratorium, dan kami ingin menyimpulkan sesuatu seperti "paparan A memiliki efek meningkatkan berat sebesar 2 kg ".


sumber

Jawaban:

5

Saya menyarankan bahwa transformasi tidak penting untuk mendapatkan distribusi normal untuk kesalahan Anda. Normalitas bukanlah asumsi yang perlu. Jika Anda memiliki data "cukup", teorema batas pusat mulai masuk dan perkiraan standar Anda menjadi normal tanpa gejala. Atau, Anda dapat menggunakan bootstrap sebagai sarana non-parametrik untuk memperkirakan kesalahan standar. (Homoskedastisitas, varian umum untuk pengamatan lintas unit, diperlukan agar kesalahan standar Anda benar; opsi yang kuat memungkinkan heteroskedastisitas).

Alih-alih, transformasi membantu memastikan bahwa model linear sesuai. Untuk memahami hal ini, mari pertimbangkan bagaimana kita dapat menafsirkan koefisien dalam model yang diubah:

  • hasil adalah unit, prediktor adalah unit: Perubahan satu unit dalam prediktor mengarah ke perubahan unit beta dalam hasil.
  • hasil dalam unit, prediktor dalam unit log: Perubahan satu persen pada prediktor menyebabkan perubahan beta / 100 unit pada hasil.
  • hasil dalam unit log, prediktor dalam unit: Perubahan satu unit dalam prediktor mengarah ke perubahan beta x 100% pada hasil.
  • hasil dalam unit log, prediktor dalam unit log: Perubahan satu persen pada prediktor menyebabkan perubahan beta persen pada hasil.

Jika diperlukan transformasi agar model Anda masuk akal (yaitu, agar linearitas dapat bertahan), maka estimasi dari model ini harus digunakan untuk inferensi. Perkiraan dari model yang tidak Anda percayai tidak terlalu membantu. Interpretasi di atas bisa sangat berguna dalam memahami perkiraan dari model yang diubah dan sering kali lebih relevan dengan pertanyaan yang ada. Sebagai contoh, para ekonom menyukai formulasi log-log karena interpretasi beta adalah elastisitas, ukuran penting dalam ekonomi.

Saya akan menambahkan bahwa transformasi kembali tidak berfungsi karena harapan fungsi bukan fungsi harapan; log dari nilai beta yang diharapkan bukan nilai yang diharapkan dari log beta. Karenanya, estimator Anda tidak bias. Ini membuang kesalahan standar juga.

Charlie
sumber
2

JAWABAN SINGKAT: Benar sekali, transformasi belakang nilai beta tidak ada artinya. Namun, Anda dapat melaporkan non-linearitas sebagai sesuatu seperti. "Jika Anda menimbang 100kg maka makan dua potong kue sehari akan menambah berat Anda sekitar 2kg dalam satu minggu. Namun, jika Anda menimbang 200kg berat Anda akan bertambah 2,5kg. Lihat gambar 1 untuk penggambaran hubungan non-linear ini ( angka 1 menjadi kecocokan kurva pada data mentah). "

JAWABAN PANJANG:

Makna dari nilai yang ditransformasikan kembali bervariasi tetapi ketika dilakukan dengan benar biasanya memiliki beberapa makna.

Jika Anda memiliki regresi nilai log alami pada dua x prediktor dengan beta 0,13, dan mencegat 7,0, maka transformasi kembali 0,13 (1,14) cukup berarti. Itu betul. Namun, transformasi belakang 7.13 akan menjadi nilai yang dapat diartikan dengan beberapa makna. Anda kemudian dapat mengurangi transformasi belakang 7,0 dan dibiarkan dengan nilai sisa yang efek Anda dalam skala yang bermakna (152.2). Jika Anda ingin melihat nilai prediksi apa pun, Anda harus terlebih dahulu menghitung semuanya dalam nilai log dan kemudian kembali melakukan transformasi. Ini harus dilakukan secara terpisah untuk setiap nilai yang diprediksi dan menghasilkan kurva jika digambarkan.

Ini sering masuk akal untuk dilakukan jika transformasi Anda memiliki efek yang relatif kecil pada data Anda. Log transformasi dari waktu reaksi adalah salah satu jenis nilai yang dapat ditransformasikan kembali. Ketika dilakukan dengan benar, Anda akan menemukan bahwa nilainya tampak dekat dengan nilai median yang melakukan perhitungan sederhana pada data mentah.

Meski begitu seseorang harus berhati-hati dengan interaksi dan non-interaksi. Nilai relatif bervariasi di seluruh skala. Analisis itu peka terhadap nilai log sementara nilai-nilai yang ditransformasikan kembali mungkin menunjukkan pola yang berbeda yang membuat interaksi tampak seperti tidak seharusnya ada di sana atau sebaliknya. Dengan kata lain, Anda dapat kembali mengubah hal-hal yang membuat perubahan kecil pada data selama Anda berhati-hati.

Beberapa perubahan, seperti transformasi probabilitas logistik, dapat memiliki dampak yang cukup besar, terutama menjelang akhir skala. Contoh tempat yang Anda tidak boleh pernah balik transformasi adalah plot interaksi di dekat kemungkinan tinggi atau rendah.

John
sumber
2

Pertanyaannya adalah tentang efek marginal (X pada Y), saya pikir, tidak begitu banyak tentang menafsirkan koefisien individu. Seperti yang telah dicatat oleh orang, ini kadang-kadang hanya dapat diidentifikasi dengan ukuran efek, misalnya ketika ada hubungan linier dan aditif.

Jika itu fokus maka cara (secara konseptual, jika tidak praktis) yang paling sederhana untuk memikirkan masalah tampaknya adalah sebagai berikut:

Untuk mendapatkan efek marginal X pada Y dalam model regresi normal linier tanpa interaksi, Anda dapat melihat koefisien pada X. Tapi itu tidak cukup karena diperkirakan tidak diketahui. Dalam kasus apa pun, yang benar-benar diinginkan seseorang untuk efek marginal adalah semacam plot atau ringkasan yang memberikan prediksi tentang Y untuk rentang nilai X, dan ukuran ketidakpastian. Biasanya orang mungkin menginginkan rata-rata Y yang diprediksi dan interval kepercayaan, tetapi orang juga mungkin menginginkan prediksi untuk distribusi bersyarat lengkap Y untuk suatu X. Distribusi itu lebih luas daripada estimasi sigma model pas karena memperhitungkan ketidakpastian tentang koefisien model .

Ada berbagai solusi bentuk tertutup untuk model sederhana seperti ini. Untuk tujuan saat ini, kita dapat mengabaikannya dan berpikir secara lebih umum tentang cara mendapatkan grafik efek marginal dengan simulasi, dengan cara yang berhubungan dengan model kompleks yang sewenang-wenang.

Asumsikan Anda menginginkan efek dari berbagai X pada rata-rata Y, dan Anda senang untuk memperbaiki semua variabel lain pada beberapa nilai yang bermakna. Untuk setiap nilai X yang baru, ambil sampel ukuran B dari distribusi koefisien model. Cara mudah untuk melakukannya dalam R adalah dengan mengasumsikan bahwa itu normal dengan mean coef(model)dan matriks kovarians vcov(model). Hitung Y yang diharapkan baru untuk setiap set koefisien dan rangkum lot dengan interval. Kemudian pindah ke nilai X berikutnya.

Tampaknya bagi saya bahwa metode ini seharusnya tidak terpengaruh oleh transformasi mewah apa pun yang diterapkan pada variabel mana pun, asalkan Anda juga menerapkannya (atau kebalikannya) dalam setiap langkah pengambilan sampel. Jadi, jika model yang sesuai memiliki log (X) sebagai prediktor, maka login X baru Anda sebelum mengalikannya dengan koefisien sampel. Jika model yang dipasang memiliki sqrt (Y) sebagai variabel dependen, maka kuadratkan setiap rata-rata yang diprediksi dalam sampel sebelum meringkasnya sebagai interval.

Singkatnya, lebih banyak pemrograman tetapi lebih sedikit perhitungan probabilitas, dan efek marginal yang dapat dipahami secara klinis sebagai hasilnya. 'Metode' ini kadang-kadang disebut CLARIFY dalam literatur ilmu politik, tetapi cukup umum.

conjugateprior
sumber