Saya memiliki masalah regresi berganda, yang saya coba selesaikan menggunakan regresi berganda sederhana:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Ini sepertinya menjelaskan 85% varian (menurut R-squared) yang tampaknya cukup bagus.
Namun yang membuat saya khawatir adalah plot aneh yang tampak Residual vs Dipasang, lihat di bawah:
Saya menduga alasan mengapa kita memiliki garis paralel tersebut adalah karena nilai Y hanya memiliki 10 nilai unik yang sesuai dengan sekitar 160 nilai X.
Mungkin saya harus menggunakan jenis regresi yang berbeda dalam kasus ini?
Sunting : Saya telah melihat dalam makalah berikut perilaku yang serupa. Perhatikan itu hanya kertas satu halaman, jadi ketika Anda melihat pratinjau, Anda dapat membaca semuanya. Saya pikir ini menjelaskan dengan baik mengapa saya mengamati perilaku ini tetapi saya masih tidak yakin apakah ada regresi lain yang akan bekerja lebih baik di sini?
Sunting2: Contoh paling dekat dengan kasus kami yang dapat saya pikirkan adalah perubahan suku bunga. FED mengumumkan suku bunga baru setiap beberapa bulan (kami tidak tahu kapan dan seberapa sering). Sementara itu kami mengumpulkan variabel independen kami setiap hari (seperti tingkat inflasi harian, data pasar saham, dll.). Akibatnya kita akan memiliki situasi di mana kita dapat memiliki banyak pengukuran untuk satu suku bunga.
sumber
R
paket yang melakukan ini adalahordinal
, tetapi ada yang lain jugaJawaban:
Salah satu model yang mungkin adalah salah satu variabel "bulat" atau "disensor": lety1,…y10 menjadi 10 nilai yang Anda amati. Orang bisa berasumsi bahwa ada variabel latenZ mewakili harga "nyata", yang belum Anda ketahui sepenuhnya. Namun, Anda bisa menulisYi=yj⇒yj−1≤Zi≤yj+1 (dengan y0=−∞,y11=+∞ , jika Anda memaafkan penyalahgunaan notasi ini). Jika Anda bersedia mengambil risiko pernyataan tentang distribusi Z di setiap interval ini, regresi Bayes menjadi sepele; estimasi kemungkinan maksimum membutuhkan kerja lebih banyak (tapi tidak banyak, sejauh yang saya tahu). Analoginya dengan masalah ini ditangani oleh Gelman & Hill (2007).
sumber