Hasil regresi memiliki batas atas yang tidak terduga

9

Saya mencoba memprediksi skor keseimbangan dan mencoba beberapa metode regresi yang berbeda. Satu hal yang saya perhatikan adalah bahwa nilai yang diprediksi tampaknya memiliki semacam batas atas. Yaitu, saldo aktual dalam , tetapi prediksi saya mencapai sekitar . Plot berikut menunjukkan saldo aktual vs saldo yang diprediksi (diprediksi dengan regresi linier):0.8[0.0,1.0)0.8

aktual vs diprediksi

Dan inilah dua plot distribusi dari data yang sama:

distribusi awal

Karena prediktor saya sangat miring (data pengguna dengan distribusi hukum daya), saya menerapkan transformasi Box-Cox, yang mengubah hasilnya sebagai berikut:

aktual vs diprediksi setelah transformasi Box-Cox

distribusi setelah transformasi Box-Cox

Meskipun mengubah distribusi prediksi, masih ada batas atas itu. Jadi pertanyaan saya adalah:

  • Apa alasan yang mungkin untuk batas atas tersebut dalam hasil prediksi?
  • Bagaimana saya bisa memperbaiki prediksi agar sesuai dengan distribusi nilai aktual?

Bonus: Karena distribusi setelah transformasi Box-Cox tampaknya mengikuti distribusi prediktor yang diubah, apakah mungkin ini terkait langsung? Jika demikian, apakah ada transformasi yang dapat saya terapkan, agar sesuai dengan distribusi ke nilai aktual?

Sunting: Saya menggunakan regresi linier sederhana dengan 5 prediktor.

Mennny
sumber
1
Saya sangat tertarik untuk melihat ke mana perginya. Ini hanya model regresi linier? Berapa banyak prediktor?
shadowtalker
1
Sebagai catatan tambahan: Karena variabel hasil Anda dibatasi oleh 0 dan 1, model regresi linier sederhana kemungkinan akan memprediksi nilai di luar batas yang tentu saja tidak valid. Ada opsi lain untuk dipertimbangkan dalam kasus ini.
COOLSerdash
1
Input terikat menunjukkan output terbatas untuk model linier. Apa batasan pada prediksi (diubah)? Bisakah Anda menunjukkan kepada kami tabel ringkasan model yang sesuai?
kardinal
2
Mennny: Yang Anda butuhkan (untuk memulai) adalah nilai koefisien dan batasan pada prediktor. Dengan mencocokkan tanda-tanda satu per satu, Anda dapat dengan cepat menentukan prediksi minimum dan maksimum (dengan asumsi prediktor akan selalu memenuhi batasan, baik secara implisit atau eksplisit).
kardinal
1
@ cardinal: Saya memeriksa batas-batas prediksi dan dapat mengkonfirmasi asumsi Anda. Dengan prediktor yang diberikan (tidak ditransformasikan), prediksi maksimum adalah ~ 0,79. Bisakah Anda "menyalin / menempelkan" komentar Anda sebagai jawaban agar saya dapat menerimanya? Bagaimana saya bisa melanjutkan? Saya kira ini menunjukkan bahwa tidak ada hubungan linear antara prediktor saya dan hasilnya?
Mennny

Jawaban:

1

Dep var Anda dibatasi antara 0 dan 1 dan karenanya OLS tidak sepenuhnya sesuai, saya sarankan beta regresi misalnya, dan mungkin ada metode lain. Tetapi kedua, setelah transformasi kotak-cox Anda, Anda mengatakan bahwa prediksi Anda dibatasi, tetapi grafik Anda tidak menunjukkan itu.

Leonardo Auslender
sumber
0

Meskipun ada banyak fokus menggunakan regresi yang mematuhi batasan 0/1, dan ini masuk akal (dan penting!), Pertanyaan spesifik mengapa LPM Anda tidak memprediksi hasil yang lebih besar dari 0,8 menurut saya sebagai pertanyaan yang sedikit berbeda .

Dalam kedua kasus, ada pola yang dicatat dalam residu Anda, yaitu, model linier Anda cocok dengan ekor atas distribusi Anda dengan buruk. Ini berarti ada sesuatu yang nonlinear tentang model yang benar.

Solusi yang juga mempertimbangkan batasan 0/1 dari data Anda: probit, logit, dan regresi beta. Batas ini sangat penting dan harus ditujukan agar pekerjaan Anda menjadi ketat, mengingat Anda relatif dekat dengan 1 distribusi, dan dengan demikian sejumlah besar jawaban pada topik itu.

Namun, biasanya, masalahnya adalah bahwa LPM melebihi batas 0/1. Ini bukan masalahnya di sini! Jika Anda tidak peduli dengan 0/1 terikat dan secara aktif menginginkan solusi yang dapat dipasangkan dengan (x'x) ^ - 1 (x'y), maka pertimbangkan bahwa mungkin modelnya tidak linear lurus. Menyesuaikan model sebagai fungsi x ^ 2, produk silang variabel independen, atau log variabel independen dapat membantu meningkatkan kecocokan Anda dan mungkin meningkatkan daya penjelas model Anda sehingga memperkirakan nilai lebih besar dari 0,8.

RegressForward
sumber