Saya mencoba menemukan cara terbaik untuk memperkirakan jumlah pembayaran untuk agen penagihan. Variabel dependen hanya non-nol ketika pembayaran telah dilakukan. Dapat dimengerti, ada banyak sekali angka nol karena kebanyakan orang tidak dapat dihubungi atau tidak dapat membayar kembali utangnya.
Ada juga korelasi negatif yang sangat kuat antara jumlah hutang dan kemungkinan melakukan pembayaran. Biasanya, saya akan membuat model logistik untuk memprediksi probabilitas pembayaran / tidak bayar tetapi ini memiliki konsekuensi yang disayangkan untuk menemukan orang-orang dengan saldo terendah.
Apakah ada cara untuk menggabungkan model pembayaran / tidak bayar logistik dengan model terpisah yang memprediksi jumlah pembayaran?
regression
predictive-models
logistic
Zelazny7
sumber
sumber
Jawaban:
Gagasan tentang membangun sebuah model dua tahap adalah cara yang tepat untuk pergi, namun, seseorang perlu mempertimbangkan kesulitan khusus pengaturan Anda yang merupakan korelasi negatif yang sangat kuat antara jumlah hutang dan kemungkinan melakukan pembayaran
Masalah utama membangun model dua tahap di sini adalah, bahwa model kedua (untuk prediksi utang), ketika dibangun di atas "non-nol" saja, dibangun di atas sampel populasi non-acak yang paling mungkin ( yaitu seluruh dataset), tetapi model gabungan harus diterapkan pada seluruh populasi lagi. Ini berarti bahwa model kedua harus membuat prediksi untuk bagian-bagian dari data yang belum pernah dilihat sebelumnya, yang mengakibatkan hilangnya keakuratan. Ini disebut Sampel Seleksi Bias (untuk ikhtisar dari perspektif ML saya sarankan Kerangka Jaringan Bayesian untuk Menolak Inferensi oleh Smith dan Elkan).
The KDD-Piala-98 ditangani dengan masalah yang sama di mana orang harus memprediksi apakah donor untuk organisasi veteran kemungkinan untuk menyumbangkan lagi dan berapa banyak kemungkinan untuk menyumbangkan. Dalam dataset ini, probabilitas donasi lagi berkorelasi negatif dengan jumlah uang yang diharapkan juga. Bias Pemilihan Sampel juga muncul.
Solusi yang paling mengesankan bagi saya dapat ditemukan dalam Belajar dan Membuat Keputusan Ketika Biaya dan Peluangnya Tidak Diketahui oleh Bianca Zadrozny dan Charles Elkan. Mereka telah menciptakan solusi sensitif biaya berdasarkan koreksi Heckman , yang setahu saya pendekatan sistematis pertama untuk memperbaiki bias pemilihan (sampel).
sumber
Itu pertanyaan yang sangat bagus (+1).
Mengapa tidak memperlakukan 0s seolah-olah mereka NAS?
Anda bisa menambahkan respons tiruan yang menunjukkan apakah uang telah dipulihkan ( yaitu sama dengan 0 ketika nilainya 0, dan 1 bila nilainya positif) dan pas dengan model logistik pada respons biner ini dengan prediktor yang sama. Anda akan cocok dengan 2 model: respons biner menggunakan semua titik data, dan respons kontinu hanya menggunakan titik data non zeron (sesuai dengan gagasan memperlakukan 0 sebagai NA).
Anda masih dapat menguji nullity parameter di setiap model dan menghitung keuntungan yang diharapkan dengan menggunakan kedua set parameter.
sumber