Saya mencoba memprediksi skor keseimbangan dan mencoba beberapa metode regresi yang berbeda. Satu hal yang saya perhatikan adalah bahwa nilai yang diprediksi tampaknya memiliki semacam batas atas. Yaitu, saldo aktual dalam , tetapi prediksi saya mencapai sekitar . Plot berikut menunjukkan saldo aktual vs saldo yang diprediksi (diprediksi dengan regresi linier):0.8
Dan inilah dua plot distribusi dari data yang sama:
Karena prediktor saya sangat miring (data pengguna dengan distribusi hukum daya), saya menerapkan transformasi Box-Cox, yang mengubah hasilnya sebagai berikut:
Meskipun mengubah distribusi prediksi, masih ada batas atas itu. Jadi pertanyaan saya adalah:
- Apa alasan yang mungkin untuk batas atas tersebut dalam hasil prediksi?
- Bagaimana saya bisa memperbaiki prediksi agar sesuai dengan distribusi nilai aktual?
Bonus: Karena distribusi setelah transformasi Box-Cox tampaknya mengikuti distribusi prediktor yang diubah, apakah mungkin ini terkait langsung? Jika demikian, apakah ada transformasi yang dapat saya terapkan, agar sesuai dengan distribusi ke nilai aktual?
Sunting: Saya menggunakan regresi linier sederhana dengan 5 prediktor.
Jawaban:
Dep var Anda dibatasi antara 0 dan 1 dan karenanya OLS tidak sepenuhnya sesuai, saya sarankan beta regresi misalnya, dan mungkin ada metode lain. Tetapi kedua, setelah transformasi kotak-cox Anda, Anda mengatakan bahwa prediksi Anda dibatasi, tetapi grafik Anda tidak menunjukkan itu.
sumber
Meskipun ada banyak fokus menggunakan regresi yang mematuhi batasan 0/1, dan ini masuk akal (dan penting!), Pertanyaan spesifik mengapa LPM Anda tidak memprediksi hasil yang lebih besar dari 0,8 menurut saya sebagai pertanyaan yang sedikit berbeda .
Dalam kedua kasus, ada pola yang dicatat dalam residu Anda, yaitu, model linier Anda cocok dengan ekor atas distribusi Anda dengan buruk. Ini berarti ada sesuatu yang nonlinear tentang model yang benar.
Solusi yang juga mempertimbangkan batasan 0/1 dari data Anda: probit, logit, dan regresi beta. Batas ini sangat penting dan harus ditujukan agar pekerjaan Anda menjadi ketat, mengingat Anda relatif dekat dengan 1 distribusi, dan dengan demikian sejumlah besar jawaban pada topik itu.
Namun, biasanya, masalahnya adalah bahwa LPM melebihi batas 0/1. Ini bukan masalahnya di sini! Jika Anda tidak peduli dengan 0/1 terikat dan secara aktif menginginkan solusi yang dapat dipasangkan dengan (x'x) ^ - 1 (x'y), maka pertimbangkan bahwa mungkin modelnya tidak linear lurus. Menyesuaikan model sebagai fungsi x ^ 2, produk silang variabel independen, atau log variabel independen dapat membantu meningkatkan kecocokan Anda dan mungkin meningkatkan daya penjelas model Anda sehingga memperkirakan nilai lebih besar dari 0,8.
sumber