Garis lurus paralel pada plot sisa vs pas

8

Saya memiliki masalah regresi berganda, yang saya coba selesaikan menggunakan regresi berganda sederhana:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Ini sepertinya menjelaskan 85% varian (menurut R-squared) yang tampaknya cukup bagus.

Namun yang membuat saya khawatir adalah plot aneh yang tampak Residual vs Dipasang, lihat di bawah:

masukkan deskripsi gambar di sini

Saya menduga alasan mengapa kita memiliki garis paralel tersebut adalah karena nilai Y hanya memiliki 10 nilai unik yang sesuai dengan sekitar 160 nilai X.

Mungkin saya harus menggunakan jenis regresi yang berbeda dalam kasus ini?

Sunting : Saya telah melihat dalam makalah berikut perilaku yang serupa. Perhatikan itu hanya kertas satu halaman, jadi ketika Anda melihat pratinjau, Anda dapat membaca semuanya. Saya pikir ini menjelaskan dengan baik mengapa saya mengamati perilaku ini tetapi saya masih tidak yakin apakah ada regresi lain yang akan bekerja lebih baik di sini?

Sunting2: Contoh paling dekat dengan kasus kami yang dapat saya pikirkan adalah perubahan suku bunga. FED mengumumkan suku bunga baru setiap beberapa bulan (kami tidak tahu kapan dan seberapa sering). Sementara itu kami mengumpulkan variabel independen kami setiap hari (seperti tingkat inflasi harian, data pasar saham, dll.). Akibatnya kita akan memiliki situasi di mana kita dapat memiliki banyak pengukuran untuk satu suku bunga.

Datageek
sumber
1
Anda hampir pasti membutuhkan beberapa bentuk regresi lainnya. Jika data Y adalah ordinal (yang saya duga) maka Anda mungkin ingin regresi logistik ordinal. Satu Rpaket yang melakukan ini adalah ordinal, tetapi ada yang lain juga
Peter Flom
Sebenarnya Y adalah harga yang kami coba prediksi, yang berubah setiap beberapa bulan. Kami memiliki variabel perekam-mingguan (X) untuk harga yang sesuai (Y) yang berubah setiap beberapa bulan. Apakah regresi logistik akan berhasil jika kita tidak tahu harga di masa depan?
Datageek
2
Anda benar tentang penjelasannya; referensi Anda berhasil. Tetapi situasi Anda terlihat tidak biasa: tampaknya Anda hanya memiliki sepuluh atau lebih tanggapan independen (yang terletak pada skala kontinu, bukan yang terpisah) tetapi Anda menggunakan beberapa variabel penjelas yang bervariasi dari waktu ke waktu. Ini bukan situasi yang direnungkan oleh sebagian besar teknik regresi. Informasi lebih lanjut tentang apa arti variabel-variabel ini dan bagaimana mereka diukur dapat membantu kami mengidentifikasi pendekatan analitik yang baik.
Whuber

Jawaban:

4

Salah satu model yang mungkin adalah salah satu variabel "bulat" atau "disensor": let y1,y10menjadi 10 nilai yang Anda amati. Orang bisa berasumsi bahwa ada variabel latenZmewakili harga "nyata", yang belum Anda ketahui sepenuhnya. Namun, Anda bisa menulisYi=yjyj1Ziyj+1 (dengan y0=,y11=+, jika Anda memaafkan penyalahgunaan notasi ini). Jika Anda bersedia mengambil risiko pernyataan tentang distribusi Z di setiap interval ini, regresi Bayes menjadi sepele; estimasi kemungkinan maksimum membutuhkan kerja lebih banyak (tapi tidak banyak, sejauh yang saya tahu). Analoginya dengan masalah ini ditangani oleh Gelman & Hill (2007).

Emmanuel Charpentier
sumber
1
Ini ide yang bagus. Ini menangani fenomena tersebut tetapi saya bertanya-tanya apakah ini akan kehilangan masalah yang lebih besar: bahkan jika harga dapat dianggap disensor, mereka kemungkinan besar sangat berkorelasi seri.
Whuber
Saya sudah mencoba paket censReg R tetapi tidak dapat membuatnya berfungsi. Mungkin saja aku tidak mengerti idemu. Masalahnya adalah kita tahu semua variabel dependen sehingga kita tidak memiliki situasi di mana Y = 0 (disensor), hanya saja Y tetap stabil selama beberapa bulan. Saya baru saja mengedit lagi jadi semoga ini menjelaskan lebih baik kasus penggunaan kami.
Datageek
1
Radek, saya pikir idenya adalah ini: misalkan harganya Y(t) tergantung pada waktu tetapi hanya berubah pada waktu yang berbeda t1,t2,. Kami menganggap ini sebagai manifestasi dari beberapa variabel mendasar yang tidak teramati ("harga riil")Z(t)dan kami berharap itu di antara waktuti dan ti+1 Z(t) akan selalu ada di antara Y(ti) dan Y(ti+1). Akibatnya, kami melihat harga yang diamati setiap saatt dalam interval ini sebagai Z(t)sebagai disensor baik di sebelah kiri dan kanan olehY(ti) dan Y(ti+1). (Saya harus menekankan "harapan": inilah "pernyataan berisiko" yang dimaksud.)
whuber
1
whuber: kamu benar Posting asli tidak menyinggung seri waktu, jadi saya mengabaikannya. Saya pikir bahwa untuk menjawab pertanyaan, kita harus mengambil risiko dua pernyataan: satu tentang distribusiZ dalam interval (yj1,yj+1, dan satu tentang bentuk model temporal, yaitu fungsi f mengikat Z(t) untuk f(Z(1),Z(2,,Z(t1)). Dalam model BUGS, kedua aspek ini akan dinyatakan dalam pernyataan tentangZ. Tidak lagi sesederhana itu ...
Emmanuel Charpentier