Untuk sedikit memperluas jawaban @ ken-butler. Dengan menambahkan variabel kontinu (jam) dan variabel indikator untuk nilai khusus (jam = 0, atau non-menyusui), Anda berpikir bahwa ada efek linier untuk nilai "non-khusus" dan lompatan diskrit di hasil yang diprediksi pada nilai khusus. Ini membantu (setidaknya bagi saya) untuk melihat grafik. Dalam contoh di bawah ini, kami memodelkan upah per jam sebagai fungsi jam per minggu yang digunakan oleh responden (semuanya perempuan), dan kami pikir ada sesuatu yang istimewa tentang "standar" 40 jam per minggu:
Kode yang menghasilkan grafik ini (dalam Stata) dapat ditemukan di sini: http://www.stata.com/statalist/archive/2013-03/msg00088.html
Jadi dalam hal ini kami telah menetapkan variabel kontinu nilai 40 meskipun kami ingin diperlakukan berbeda dari nilai-nilai lainnya. Demikian pula, Anda akan memberi ASI Anda nilai 0 walaupun Anda berpikir secara kualitatif berbeda dari nilai-nilai lainnya. Saya menafsirkan komentar Anda di bawah ini bahwa Anda pikir ini adalah masalah. Ini bukan masalahnya dan Anda tidak perlu menambahkan istilah interaksi. Bahkan, istilah interaksi itu akan dihapus karena collinearity sempurna jika Anda mencoba. Ini bukan batasan, itu hanya memberitahu Anda bahwa istilah interaksi tidak menambahkan informasi baru.
Katakan persamaan regresi Anda terlihat seperti ini:
y^=β1weeks_breastfeeding+β2non_breastfeeding+⋯
Dimana adalah jumlah minggu menyusui (termasuk nilai 0 bagi mereka yang tidak menyusui) dan n o n _ b r e a s t f e e d i n g adalah variabel indikator yaitu 1 ketika seseorang tidak menyusui dan 0 sebaliknya.weeks_breastfeedingnon_breastfeeding
Pertimbangkan apa yang terjadi ketika seseorang menyusui. Persamaan regresi menyederhanakan untuk:
y^=β1weeks_breastfeeding+β20+⋯=β1weeks_breastfeeding+⋯
Jadi hanyalah efek linear dari jumlah minggu menyusui bagi mereka yang menyusui.β1
Pertimbangkan apa yang terjadi ketika seseorang tidak menyusui:
y^=β10+β21+⋯=β2+⋯
Jadi memberi Anda efek tidak menyusui dan jumlah minggu menyusui turun dari persamaan.β2
Anda dapat melihat bahwa tidak ada gunanya menambahkan istilah interaksi, karena istilah interaksi itu sudah (secara implisit) ada di sana.
β2weeks_breastfeedingweeks_breastfeedingβ2
Sesuatu yang sederhana: mewakili variabel Anda dengan indikator 1/0 untuk apa saja / tidak ada, dan nilai aktual. Masukkan keduanya ke dalam regresi.
sumber
Jika Anda meletakkan indikator biner untuk setiap waktu yang dihabiskan (= 1) vs tidak ada waktu yang dihabiskan (= 0) dan kemudian memiliki jumlah waktu yang dihabiskan sebagai variabel kontinu, efek yang berbeda dari "0" kali akan menjadi " dijemput "oleh indikator 0-1
sumber
Anda dapat menggunakan model efek campuran dengan pengelompokan yang didasarkan pada waktu 0 vs waktu nol, dan pertahankan variabel independen Anda
sumber
Jika Anda menggunakan Random Forest atau Neural Network, menempatkan angka ini sebagai 0 adalah OK, karena mereka akan dapat mengetahui bahwa 0 jelas berbeda dari nilai-nilai lain (jika sebenarnya berbeda). Cara lain adalah menambahkan variabel kategori ya / tidak selain variabel waktu.
Tapi secara keseluruhan, dalam kasus khusus ini saya tidak melihat masalah nyata - 0,1 minggu menyusui mendekati 0 dan efeknya akan sangat mirip, jadi sepertinya variabel yang cukup kontinu bagi saya dengan 0 tidak menonjol sebagai sesuatu berbeda.
sumber
Model Tobit adalah apa yang Anda inginkan, saya pikir.
sumber