Nilai negatif dalam prediksi untuk variabel respons selalu positif dalam regresi linier

8

Saya mencoba memprediksi variabel respons dalam regresi linier yang harus selalu positif (biaya per klik). Ini jumlah uang. Di adwords, Anda membayar google untuk klik pada iklan Anda, dan angka negatif berarti bahwa Google membayar Anda ketika orang mengklik: P

Prediktor adalah semua nilai kontinu. Rsquared dan RMSE layak jika dibandingkan dengan model lain, bahkan out-of-sample:

  RMSE        Rsquared 
1.4141477     0.8207303

Saya tidak dapat mengubah prediksi, karena ini adalah uang, jadi bahkan faktor penyelamatan kecil dapat mengubah biaya secara signifikan.

Sejauh yang saya mengerti, untuk model regresi tidak ada yang istimewa tentang angka nol dan negatif, sehingga menemukan hyperplane regresi terbaik tidak peduli apakah output sebagian negatif.

Ini adalah upaya pertama, menggunakan semua variabel yang saya miliki. Jadi ada ruang untuk perbaikan.

Apakah ada cara untuk memberi tahu model bahwa output tidak boleh negatif?

usillos
sumber
6
Anda dapat memastikan prediksi positif dengan menggunakan model linier umum dengan fungsi tautan logaritmik. Omong-omong, meskipun nilai cukup menggembirakan, pemeriksaan yang lebih baik apakah model mengikuti bentuk utama data adalah sebidang residual vs yang diprediksi. Plot yang diamati vs yang diprediksi juga dapat membantu menerangi masalah Anda. R2
Nick Cox
1
@NickCox memberikan satu saran. Saya akan memplot data lebih dari sekadar residual vs yang diprediksi. Namun, Anda tentu dapat menskala ulang variabel uang. Salah satu metode umum adalah dengan mengambil log (biaya) sebagai variabel dependen. (Saya pikir ini berakhir setara dengan fungsi tautan log, tetapi mungkin lebih mudah dipahami). Log (biaya) tentu saja bisa negatif. Dan variabel log uang sering masuk akal karena, misalnya perbedaan antara 0,01 dan 0,02 per klik adalah penting, tetapi perbedaan antara 1,01 dan 10,2 per klik tidak.
Peter Flom
@ Peter Flom Saya pikir berarti 1,02 bukan 10.2.
Nick Cox
1
Sedikit sampel data akan membantu orang menggambarkan solusi potensial.
Glen_b -Reinstate Monica

Jawaban:

4

Saya berasumsi bahwa Anda menggunakan estimator OLS pada model regresi linier ini. Anda bisa menggunakan estimator kuadrat-kuadrat terbatas ketidaksetaraan , yang akan menjadi solusi untuk masalah minimisasi di bawah kendala ketidaksetaraan. Menggunakan notasi matriks standar (vektor adalah vektor kolom) masalah minimalisasi dinyatakan sebagai

minβ(yXβ)(yXβ)s.t.Zβ0

... di mana adalah , adalah , adalah dan adalah matriks berisi rangkaian sampel regressor out-of-sample dari panjang yang digunakan untuk prediksi. Kami memiliki linear kendala ketimpangan (dan fungsi tujuan adalah cembung, sehingga kondisi urutan pertama cukup untuk minimum).yn×1Xn×kβk×1Zm×kmm

Lagrangean dari masalah ini adalah

L=(yXβ)(yXβ)λZβ=yyyXββXy+βXXβλZβ

=yy2βXy+βXXβλZβ

di mana adalah vektor kolom dari pengganda non-negatif Karush -Kuhn -Tucker. Kondisi urutan pertama adalah (Anda mungkin ingin meninjau aturan untuk diferensiasi matriks dan vektor)λm×1

Lβ=02Xy+2XXβZλ

β^R=(XX)-1Xy+12(XX)-1Zλ=β^HAIL.S+(XX)-1Zξ[1]

... di mana , untuk kenyamanan, dan adalah estimator yang akan kita peroleh dari estimasi kuadrat terkecil.ξ=12λβ^HAIL.S

Metode ini sepenuhnya dielaborasi dalam Liew (1976) .

Alecos Papadopoulos
sumber
3
Saya telah membatalkan ini karena ini adalah solusi yang sah, tetapi dalam praktiknya berisiko. Lagipula, solusinya sensitif terhadap nilai : nilai leverage tinggi tunggal akan mengarahkan perkiraan jauh dari kesesuaian yang layak hanya untuk menegakkan batasan. Dengan demikian, minimal, prosedur ini harus disertai dengan uji good-of-fit yang hati-hati terhadap data. Z
whuber
@whuber kamu benar. Jadi, OP, telusuri dengan hati-hati di sini.
Alecos Papadopoulos