Saya mencoba memprediksi variabel respons dalam regresi linier yang harus selalu positif (biaya per klik). Ini jumlah uang. Di adwords, Anda membayar google untuk klik pada iklan Anda, dan angka negatif berarti bahwa Google membayar Anda ketika orang mengklik: P
Prediktor adalah semua nilai kontinu. Rsquared dan RMSE layak jika dibandingkan dengan model lain, bahkan out-of-sample:
RMSE Rsquared
1.4141477 0.8207303
Saya tidak dapat mengubah prediksi, karena ini adalah uang, jadi bahkan faktor penyelamatan kecil dapat mengubah biaya secara signifikan.
Sejauh yang saya mengerti, untuk model regresi tidak ada yang istimewa tentang angka nol dan negatif, sehingga menemukan hyperplane regresi terbaik tidak peduli apakah output sebagian negatif.
Ini adalah upaya pertama, menggunakan semua variabel yang saya miliki. Jadi ada ruang untuk perbaikan.
Apakah ada cara untuk memberi tahu model bahwa output tidak boleh negatif?
sumber
Jawaban:
Saya berasumsi bahwa Anda menggunakan estimator OLS pada model regresi linier ini. Anda bisa menggunakan estimator kuadrat-kuadrat terbatas ketidaksetaraan , yang akan menjadi solusi untuk masalah minimisasi di bawah kendala ketidaksetaraan. Menggunakan notasi matriks standar (vektor adalah vektor kolom) masalah minimalisasi dinyatakan sebagai
... di mana adalah , adalah , adalah dan adalah matriks berisi rangkaian sampel regressor out-of-sample dari panjang yang digunakan untuk prediksi. Kami memiliki linear kendala ketimpangan (dan fungsi tujuan adalah cembung, sehingga kondisi urutan pertama cukup untuk minimum).y n × 1 X n × k β k × 1 Z m × k m m
Lagrangean dari masalah ini adalah
di mana adalah vektor kolom dari pengganda non-negatif Karush -Kuhn -Tucker. Kondisi urutan pertama adalah (Anda mungkin ingin meninjau aturan untuk diferensiasi matriks dan vektor)λ m × 1
... di mana , untuk kenyamanan, dan adalah estimator yang akan kita peroleh dari estimasi kuadrat terkecil.ξ=12λ β^O L S
Metode ini sepenuhnya dielaborasi dalam Liew (1976) .
sumber