Cara terbaik untuk menggabungkan respons biner dan kontinu

Saya mencoba menemukan cara terbaik untuk memperkirakan jumlah pembayaran untuk agen penagihan. Variabel dependen hanya non-nol ketika pembayaran telah dilakukan. Dapat dimengerti, ada banyak sekali angka nol karena kebanyakan orang tidak dapat dihubungi atau tidak dapat membayar kembali utangnya.

Ada juga korelasi negatif yang sangat kuat antara jumlah hutang dan kemungkinan melakukan pembayaran. Biasanya, saya akan membuat model logistik untuk memprediksi probabilitas pembayaran / tidak bayar tetapi ini memiliki konsekuensi yang disayangkan untuk menemukan orang-orang dengan saldo terendah.

Apakah ada cara untuk menggabungkan model pembayaran / tidak bayar logistik dengan model terpisah yang memprediksi jumlah pembayaran?

regression predictive-models logistic Zelazny7
sumber

Ada regresi log-normal nol-meningkat, yang tampaknya sesuai dengan kebutuhan Anda. Lihat makalah ini

Peter Flom - Reinstate Monica

@PeterFlom menurut Anda bagaimana ini membandingkan dengan diskusi gui11aume dan steffen tentang model dua tahap dan bias pemilihan sampel?

As3adTintin

Saya pikir keduanya bisa bermanfaat. Sudah ada diskusi membandingkan keduanya, tapi saya lupa di mana saya membacanya.

Peter Flom - Pasang kembali Monica

Apa yang akhirnya saya lakukan adalah menciptakan jaringan saraf dengan aktivasi relu untuk output dan berarti kehilangan logaritmik kuadrat

Zelazny7

Ok terima kasih. aktivasi jaringan saraf / relu terdengar melewati pengetahuan saya saat ini, tetapi saya akan terus mencari ini. terima kasih telah mengajukan pertanyaan asli dan atas komentarnya!

As3adTintin

Jawaban:

Gagasan tentang membangun sebuah model dua tahap adalah cara yang tepat untuk pergi, namun, seseorang perlu mempertimbangkan kesulitan khusus pengaturan Anda yang merupakan korelasi negatif yang sangat kuat antara jumlah hutang dan kemungkinan melakukan pembayaran

Masalah utama membangun model dua tahap di sini adalah, bahwa model kedua (untuk prediksi utang), ketika dibangun di atas "non-nol" saja, dibangun di atas sampel populasi non-acak yang paling mungkin ( yaitu seluruh dataset), tetapi model gabungan harus diterapkan pada seluruh populasi lagi. Ini berarti bahwa model kedua harus membuat prediksi untuk bagian-bagian dari data yang belum pernah dilihat sebelumnya, yang mengakibatkan hilangnya keakuratan. Ini disebut Sampel Seleksi Bias (untuk ikhtisar dari perspektif ML saya sarankan Kerangka Jaringan Bayesian untuk Menolak Inferensi oleh Smith dan Elkan).

The KDD-Piala-98 ditangani dengan masalah yang sama di mana orang harus memprediksi apakah donor untuk organisasi veteran kemungkinan untuk menyumbangkan lagi dan berapa banyak kemungkinan untuk menyumbangkan. Dalam dataset ini, probabilitas donasi lagi berkorelasi negatif dengan jumlah uang yang diharapkan juga. Bias Pemilihan Sampel juga muncul.

Solusi yang paling mengesankan bagi saya dapat ditemukan dalam Belajar dan Membuat Keputusan Ketika Biaya dan Peluangnya Tidak Diketahui oleh Bianca Zadrozny dan Charles Elkan. Mereka telah menciptakan solusi sensitif biaya berdasarkan koreksi Heckman , yang setahu saya pendekatan sistematis pertama untuk memperbaiki bias pemilihan (sampel).

steffen
sumber

+1 Paragraf kedua Anda dengan sangat baik menyoroti sesuatu yang tidak ada dalam jawaban saya.

gui11aume

Bagaimana ini dibandingkan dengan saran Peter Flom tentang regresi log-normal nol-meningkat?

As3adTintin

Itu pertanyaan yang sangat bagus (+1).

Mengapa tidak memperlakukan 0s seolah-olah mereka NAS?

Anda bisa menambahkan respons tiruan yang menunjukkan apakah uang telah dipulihkan ( yaitu sama dengan 0 ketika nilainya 0, dan 1 bila nilainya positif) dan pas dengan model logistik pada respons biner ini dengan prediktor yang sama. Anda akan cocok dengan 2 model: respons biner menggunakan semua titik data, dan respons kontinu hanya menggunakan titik data non zeron (sesuai dengan gagasan memperlakukan 0 sebagai NA).

Anda masih dapat menguji nullity parameter di setiap model dan menghitung keuntungan yang diharapkan dengan menggunakan kedua set parameter.

gui11aume
sumber

Terima kasih atas sarannya. Sebelum pertanyaan saya, saya telah membuat dua variabel dependen dan kumpulan data yang mirip dengan yang Anda jelaskan. Bisakah Anda menguraikan apa yang Anda maksud dengan "Masih pembatalan paramen"? Terima kasih!

Zelazny7

"Masih nullitas parameter" adalah kesalahan ketik yang saya perbaiki dalam teks. Maaf tentang itu :-)

gui11aume