Waktu yang dihabiskan dalam suatu kegiatan sebagai variabel independen

14

Saya ingin memasukkan waktu yang dihabiskan untuk melakukan sesuatu (minggu menyusui, misalnya) sebagai variabel independen dalam model linier. Namun, beberapa pengamatan tidak terlibat dalam perilaku sama sekali. Pengkodean mereka sebagai 0 tidak sepenuhnya benar, karena 0 secara kualitatif berbeda dari nilai apa pun> 0 (yaitu wanita yang tidak menyusui mungkin sangat berbeda dari wanita yang melakukannya, bahkan mereka yang tidak melakukannya terlalu lama). Yang terbaik yang bisa saya dapatkan adalah satu set boneka yang mengkategorikan waktu yang dihabiskan, tetapi ini adalah pemborosan informasi berharga. Sesuatu seperti Poisson tanpa inflasi juga tampak seperti sebuah kemungkinan, tetapi saya tidak dapat menemukan persisnya seperti apa dalam konteks ini. Adakah yang punya saran?

DL Dahly
sumber

Jawaban:

16

Untuk sedikit memperluas jawaban @ ken-butler. Dengan menambahkan variabel kontinu (jam) dan variabel indikator untuk nilai khusus (jam = 0, atau non-menyusui), Anda berpikir bahwa ada efek linier untuk nilai "non-khusus" dan lompatan diskrit di hasil yang diprediksi pada nilai khusus. Ini membantu (setidaknya bagi saya) untuk melihat grafik. Dalam contoh di bawah ini, kami memodelkan upah per jam sebagai fungsi jam per minggu yang digunakan oleh responden (semuanya perempuan), dan kami pikir ada sesuatu yang istimewa tentang "standar" 40 jam per minggu:

masukkan deskripsi gambar di sini

Kode yang menghasilkan grafik ini (dalam Stata) dapat ditemukan di sini: http://www.stata.com/statalist/archive/2013-03/msg00088.html

Jadi dalam hal ini kami telah menetapkan variabel kontinu nilai 40 meskipun kami ingin diperlakukan berbeda dari nilai-nilai lainnya. Demikian pula, Anda akan memberi ASI Anda nilai 0 walaupun Anda berpikir secara kualitatif berbeda dari nilai-nilai lainnya. Saya menafsirkan komentar Anda di bawah ini bahwa Anda pikir ini adalah masalah. Ini bukan masalahnya dan Anda tidak perlu menambahkan istilah interaksi. Bahkan, istilah interaksi itu akan dihapus karena collinearity sempurna jika Anda mencoba. Ini bukan batasan, itu hanya memberitahu Anda bahwa istilah interaksi tidak menambahkan informasi baru.

Katakan persamaan regresi Anda terlihat seperti ini:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

Dimana adalah jumlah minggu menyusui (termasuk nilai 0 bagi mereka yang tidak menyusui) dan n o n _ b r e a s t f e e d i n g adalah variabel indikator yaitu 1 ketika seseorang tidak menyusui dan 0 sebaliknya.weeks_breastfeedingnon_breastfeeding

Pertimbangkan apa yang terjadi ketika seseorang menyusui. Persamaan regresi menyederhanakan untuk:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

Jadi hanyalah efek linear dari jumlah minggu menyusui bagi mereka yang menyusui.β1

Pertimbangkan apa yang terjadi ketika seseorang tidak menyusui:

y^=β10+β21+=β2+

Jadi memberi Anda efek tidak menyusui dan jumlah minggu menyusui turun dari persamaan.β2

Anda dapat melihat bahwa tidak ada gunanya menambahkan istilah interaksi, karena istilah interaksi itu sudah (secara implisit) ada di sana.

β2weeks_breastfeedingweeks_breastfeedingβ2

Maarten Buis
sumber
1
Saya menghargai jawabannya (dan yang lainnya), tetapi saya kesulitan menerimanya. Jika saya memasukkan 1: 0, dan variabel waktu kontinu, saya masih harus menetapkan nilai waktu untuk yang bukan menyusui (atau mereka jatuh karena ada variasi co-variate). Bahkan tergantung pada variabel 1: 0, saya tidak melihat bagaimana memasukkan non-menyusui karena waktu = 0 tidak mempengaruhi koefisien regresi. Mungkin juga menambahkan istilah interaksi produk antara keduanya akan lebih masuk akal?
DL Dahly
@DLDah saya telah mengedit jawaban saya untuk mengatasi keraguan ini
Maarten Buis
Ok, itu sangat membantu. Izinkan saya bertanya satu tindak lanjut lebih cepat ... jika saya memahami Anda dengan benar, maka nilai perkiraan untuk B1 harus sama terlepas dari nilai waktu yang saya berikan kepada B2 = 1 orang. Apakah itu benar?
DL Dahly
1
Respon yang sangat bagus Maarten. Berikut adalah pertanyaan / jawaban yang serupa di situs yang menunjukkan situasi serupa dalam memasukkan variabel independen yang hanya berkaitan dengan subkelompok tertentu .
Andy W
1
@ GavinM.Jones Saya tidak pernah memikirkan perlunya memberi nama atau mengutip ini: ini hanya aplikasi langsung dari variabel kontinu dan indikator. Karenanya saya tidak memiliki referensi yang baik untuk Anda. Hal penutup yang bisa saya gali dengan cepat adalah Treiman, DJ (2009): Analisis Data Kuantitatif. Melakukan Penelitian Sosial untuk Menguji Gagasan. San Francisco: Jossey-Bass. , bab 7 membahas hal serupa. Model berisi konstanta.
Maarten Buis
6

Sesuatu yang sederhana: mewakili variabel Anda dengan indikator 1/0 untuk apa saja / tidak ada, dan nilai aktual. Masukkan keduanya ke dalam regresi.

Ken Butler
sumber
4

Jika Anda meletakkan indikator biner untuk setiap waktu yang dihabiskan (= 1) vs tidak ada waktu yang dihabiskan (= 0) dan kemudian memiliki jumlah waktu yang dihabiskan sebagai variabel kontinu, efek yang berbeda dari "0" kali akan menjadi " dijemput "oleh indikator 0-1

Glen_b -Reinstate Monica
sumber
2

Anda dapat menggunakan model efek campuran dengan pengelompokan yang didasarkan pada waktu 0 vs waktu nol, dan pertahankan variabel independen Anda

rezakhorshidi
sumber
Bisakah Anda memperluas sedikit ini? Terimakasih banyak.
DL Dahly
model efek campuran mengasumsikan bahwa ada faktor yang membagi data ke dalam ember (heterogen) yang berbeda, di mana masing-masingnya kita mungkin memiliki hubungan yang berbeda antara variabel penjelas dan variabel dependen (baik dalam hal jika mencegat atau mencegat dan kemiringan / koefisien). en.wikipedia.org/wiki/Mixed_model
rezakhorshidi
Jadi gunakan individu, bersarang dalam status menyusui, dan kemudian kemiringan acak pada minggu-menyusui? Saya bisa melakukan ini sebagai SEM cukup mudah dan menguji kendala tertentu. Terima kasih +1
DL Dahly
1

Jika Anda menggunakan Random Forest atau Neural Network, menempatkan angka ini sebagai 0 adalah OK, karena mereka akan dapat mengetahui bahwa 0 jelas berbeda dari nilai-nilai lain (jika sebenarnya berbeda). Cara lain adalah menambahkan variabel kategori ya / tidak selain variabel waktu.

Tapi secara keseluruhan, dalam kasus khusus ini saya tidak melihat masalah nyata - 0,1 minggu menyusui mendekati 0 dan efeknya akan sangat mirip, jadi sepertinya variabel yang cukup kontinu bagi saya dengan 0 tidak menonjol sebagai sesuatu berbeda.

sashkello
sumber
3
+1 untuk paragraf pertama tetapi berurusan dengan ilmu sosial atau data medis, efek 0 vs 0,1 minggu dari sesuatu bukanlah kekhawatiran utama. Intinya adalah bahwa wanita yang tidak mencoba atau melaporkan menyusui sama sekali mungkin berbeda secara sistematis dalam banyak hal lain (masalah kesehatan, pendapatan, situasi keluarga, kemampuan untuk tetap tidak bekerja, akses ke layanan kesehatan, di mana mereka memperoleh informasi tentang pengasuhan, dll.) Tidak ada alasan untuk percaya bahwa wanita ini sangat mirip dengan ibu yang mencoba menyusui dan menghentikannya dengan cepat.
Gala
1
Dari sudut pandang statistik, akan lebih baik untuk menempatkan variabel-variabel lain secara eksplisit dalam model Anda tetapi masuk akal untuk berhati-hati dengan mengasumsikan tidak ada yang istimewa terjadi pada 0, saya pikir.
Gala
0

Model Tobit adalah apa yang Anda inginkan, saya pikir.

Mark T Patterson
sumber
5
Tobit digunakan ketika hasilnya disensor di atas atau di bawah ambang batas tertentu. Misalnya, kami tidak mengamati upah di bawah upah minimum atau pendapatan di atas beberapa nilai kode teratas. Aplikasi ini untuk variabel independen.
Dimitriy V. Masterov