Situasi saya adalah:
Saya memiliki 1 variabel dependen kontinu dan 1 kontinu yang telah saya ubah secara logaritma untuk menormalkan residu mereka untuk regresi linier sederhana.
Saya akan menghargai bantuan apa pun tentang bagaimana saya bisa menghubungkan variabel-variabel yang diubah ini dengan konteks aslinya.
Saya ingin menggunakan regresi linier untuk memprediksi jumlah hari siswa tidak masuk sekolah pada tahun 2011 berdasarkan jumlah hari yang mereka lewatkan pada tahun 2010. Kebanyakan siswa ketinggalan 0 hari atau hanya beberapa hari data miring positif ke kiri. Oleh karena itu, diperlukan transformasi untuk menggunakan regresi linier.
Saya telah menggunakan log10 (var + 1) untuk kedua variabel (saya menggunakan +1 untuk siswa yang telah melewatkan 0 hari sekolah). Saya menggunakan regresi karena saya ingin menambahkan faktor kategori - jenis kelamin / etnis dll juga.
Masalah saya adalah:
Audiens yang ingin saya beri umpan balik tidak akan mengerti log10 (y) = log (konstan) + log (var2) x (dan terus terang saya juga tidak).
Pertanyaan saya adalah:
a) Apakah ada cara yang lebih baik untuk menafsirkan variabel yang berubah dalam regresi? Yaitu selama 1 hari tidak terjawab pada tahun 2010 mereka akan kehilangan 2 hari pada tahun 2011 sebagai lawan dari perubahan 1 unit log pada tahun 2010 akan ada perubahan unit log x pada tahun 2011?
b) Secara khusus, diberikan kutipan kutipan dari sumber ini sebagai berikut:
"Ini adalah estimasi regresi binomial negatif untuk peningkatan satu unit dalam nilai tes standar matematika, mengingat variabel lain tetap konstan dalam model. Jika seorang siswa meningkatkan skor tes matematika dengan satu poin, perbedaan dalam log dari jumlah yang diharapkan akan diperkirakan menurun sebesar 0,0016 unit, sambil memegang variabel lain dalam model konstan. "
Saya ingin tahu:
- Apakah bacaan ini mengatakan bahwa untuk setiap kenaikan satu satuan dalam skor
UNTRANSFORMED
variabel matematika mengarah ke penurunan 0,0016 dari konstanta (a), jadi jikaUNTRANSFORMED
skor matematika naik dua poin, saya kurangi 0,0016 * 2 dari konstanta a? - Apakah itu berarti bahwa saya mendapatkan mean geometrik dengan menggunakan eksponensial (a)) dan eksponensial (a + beta * 2) dan, bahwa saya perlu menghitung perbedaan persentase antara keduanya untuk mengatakan apa pengaruh variabel prediktor memiliki / miliki pada variabel dependen?
- Atau salah saya?
Saya menggunakan SPSS v20. Maaf karena membingkai ini dalam pertanyaan panjang.
R
memiliki paket untuk model nol-inflasi; cari situs ini .)Jawaban:
Saya pikir poin yang lebih penting disarankan dalam komentar @ whuber. Seluruh pendekatan Anda keliru karena dengan mengambil logaritma Anda secara efektif membuang dataset yang tidak ada siswa yang hilang pada 2010 atau 2011. Sepertinya ada cukup banyak dari orang-orang ini yang menjadi masalah, dan saya yakin hasil Anda akan salah berdasarkan pendekatan yang Anda ambil.
Sebagai gantinya, Anda harus menyesuaikan model linier umum dengan respons poisson. SPSS tidak dapat melakukan ini kecuali Anda telah membayar untuk modul yang sesuai, jadi saya sarankan untuk meningkatkan ke R.
Anda masih akan memiliki masalah menafsirkan koefisien, tetapi ini adalah sekunder untuk pentingnya memiliki model yang pada dasarnya sesuai.
sumber
Saya setuju dengan responden lain, terutama berkenaan dengan bentuk model. Namun, jika saya memahami motivasi pertanyaan Anda, Anda sedang berbicara kepada khalayak umum dan ingin menyampaikan yang substantif(teoritis) arti analisis Anda. Untuk tujuan ini saya membandingkan nilai prediksi (mis. Perkiraan hari yang terlewat) di bawah berbagai "skenario". Berdasarkan model yang Anda pilih, Anda dapat membandingkan jumlah atau nilai yang diharapkan dari variabel dependen ketika prediktor berada pada beberapa nilai tetap tertentu (median atau nol, misalnya) dan kemudian menunjukkan bagaimana perubahan yang "bermakna" pada prediktor. mempengaruhi prediksi. Tentu saja, Anda harus mengubah data kembali ke skala asli, yang dapat dimengerti yang Anda mulai. Saya mengatakan "perubahan yang berarti" karena sering kali standar "perubahan satu unit dalam X" tidak menyampaikan impor nyata atau ketiadaan variabel independen. Dengan "data kehadiran," saya tidak yakin perubahan seperti apa yang akan terjadi. (Jika seorang siswa tidak melewatkan hari di 2010, dan satu hari di 2011, Saya tidak yakin kita akan belajar sesuatu. Tapi saya tidak tahu.)
sumber
Edit: whoops, tidak menyadari bahwa variabel dependen Anda juga diubah log. Berikut ini tautan dengan contoh bagus yang menggambarkan ketiga situasi:
1) hanya Y ditransformasikan 2) hanya prediktor ditransformasikan 3) baik Y dan prediktor ditransformasikan
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regress.htm
sumber
Anda cukup menunjukkan:
di mana: , dan adalah pengganda. Dengan kata lain, setiap kali kovariat sama dengan 1, prediksi dikalikan dengan . Misalnya, jika , dan , prediksi Anda adalah:M1=eW1 M2=eW2 M3=eW3 Xi Mi X1=0 X2=1 X3=1
Saya menggunakan karena ini bukan prediksi rata-rata : parameter rata-rata dari distribusi log-normal tidak secara umum rata-rata dari variabel acak (seperti halnya untuk regresi linier klasik tanpa log-transform). Saya tidak memiliki referensi yang tepat di sini, tetapi saya pikir ini adalah alasan langsung.≊ Y
sumber