Mohon maaf sebelumnya jika ada terminologi yang saya gunakan salah. Saya akan menerima segala koreksi. Jika apa yang saya gambarkan sebagai "cut-off" menggunakan nama yang berbeda, beri tahu saya dan saya dapat memperbarui pertanyaan.
Situasi yang saya minati adalah ini: Anda memiliki variabel independen dan variabel dependen tunggal . Saya akan membiarkannya kabur, tetapi anggaplah akan relatif mudah untuk mendapatkan model regresi yang baik untuk variabel-variabel ini. y
Namun, model yang ingin Anda buat adalah untuk variabel independen dan variabel dependen , di mana a adalah beberapa nilai tetap dalam rentang y . Sama halnya, data yang Anda akses tidak termasuk y , hanya w .
Contoh (agak tidak realistis) tentang ini adalah jika Anda mencoba membuat model berapa tahun orang akan menerima pensiun mereka. Dalam hal ini, bisa menjadi informasi yang relevan seperti jenis kelamin, berat badan, jam latihan per minggu, dll. Variabel 'yang mendasari' adalah harapan hidup. Namun variabel yang akan Anda akses dan coba prediksi dalam model Anda adalah mana r adalah usia pensiun (dengan asumsi kesederhanaannya sudah diperbaiki).
Apakah ada pendekatan yang baik untuk menangani hal ini dalam pemodelan regresi?
sumber
Jawaban:
Model semacam ini dikenal dengan beberapa nama, tergantung pada bidang disiplin dan topik. Nama-nama umum untuk itu adalah Variabel Ketergantungan Tersensor, Variabel Ketergantungan Terpotong, Variabel Ketergantungan Terbatas, Analisis Kelangsungan Hidup, Tobit, dan Regresi Disensor. Saya mungkin meninggalkan beberapa nama lain.
Pengaturan yang Anda sarankan di mana diamati disebut "sensor kanan," karena nilai terlalu jauh ke kanan pada garis nyata disensor --- dan sebagai gantinya kami hanya melihat titik sensor, .min{yi,a} yi a
Salah satu cara berurusan dengan data seperti ini adalah melalui penggunaan variabel laten (dan ini pada dasarnya yang Anda usulkan). Ini adalah salah satu cara untuk melanjutkan:
Kemudian, Anda dapat menganalisis ini dengan kemungkinan maksimum. Pengamatan di mana penyensoran terjadi berkontribusi ke fungsi kemungkinan, dan pengamatan di mana penyensoran tidak terjadi berkontribusi ke fungsi likelihood. CDF standar normal adalah dan kepadatan standar normal adalah . Jadi, fungsi kemungkinannya terlihat seperti:P{yi>a}=Φ(1σx′iβ−a) 1σϕ((yi−x′iβ)/σ) Φ ϕ
Anda memperkirakan dan dengan memaksimalkan ini. Anda mendapatkan kesalahan standar sebagai kesalahan standar kemungkinan maksimum yang biasa.β σ
Seperti yang Anda bayangkan, ini hanyalah satu pendekatan di antara banyak cara.
sumber