Apa itu "tolak kesimpulan" dan bagaimana itu dapat digunakan untuk meningkatkan akurasi model?

10

Adakah yang bisa menjelaskan secara detail:

  1. Apa yang dimaksud dengan menolak menyimpulkan?
  2. Bagaimana ini dapat digunakan untuk meningkatkan akurasi model saya?

Saya memang memiliki gagasan untuk menolak menyimpulkan dalam aplikasi kartu kredit tetapi berjuang dengan pemikiran menggunakannya untuk meningkatkan akurasi model saya.

ayush biyani
sumber

Jawaban:

23

Dalam membangun model kredit, tolak inferencing adalah proses menyimpulkan kinerja akun kredit yang ditolak dalam proses aplikasi.

Ketika membangun model risiko kredit aplikasi, kami ingin membangun model yang memiliki penerapan " melalui pintu ", yaitu, kami memasukkan semua data aplikasi ke dalam model risiko kredit, dan model tersebut mengeluarkan peringkat risiko atau probabilitas default. Masalahnya ketika menggunakan regresi untuk membangun model dari data masa lalu adalah bahwa kita tahu kinerja akun hanya untuk aplikasi yang diterima di masa lalu. Namun, kami tidak tahu kinerja penolakan, karena setelah mendaftar kami mengirim mereka kembali. Ini dapat menghasilkan bias seleksi dalam model kami, karena jika kami hanya menggunakan "accepts" di masa lalu dalam model kami, model tersebut mungkin tidak berkinerja baik pada populasi "through-the-door".

Ada banyak cara untuk berurusan dengan penolakan kesimpulan, semuanya kontroversial. Saya akan menyebutkan dua yang sederhana di sini.

  • "Tentukan penolakan masa lalu sebagai hal yang buruk"
  • Pembagian

"Definisikan tolak ditolak sebagai buruk" hanya mengambil semua data aplikasi yang ditolak, dan alih-alih membuangnya saat membangun model, tetapkan semuanya sebagai buruk. Metode ini sangat bias model terhadap kebijakan menerima / menolak masa lalu.

"Parceling" sedikit lebih canggih. Terdiri dari

  1. Bangun model regresi dengan "terima" yang lalu
  2. Terapkan model tersebut ke penolakan masa lalu untuk memberikan peringkat risiko kepada mereka
  3. Dengan menggunakan probabilitas default yang diharapkan untuk setiap peringkat risiko, tetapkan aplikasi yang ditolak baik atau buruk. Misalnya, jika peringkat risiko memiliki probabilitas gagal bayar 10%, dan ada 100 aplikasi yang ditolak yang masuk dalam peringkat risiko ini, tetapkan 10 penolakan untuk "buruk" dan 90 penolakan untuk "baik".
  4. Bangun kembali model regresi menggunakan aplikasi yang diterima dan sekarang kinerja yang disimpulkan dari aplikasi yang ditolak

Ada berbagai cara untuk melakukan tugas baik atau buruk di langkah 3, dan proses ini juga dapat diterapkan secara iteratif.

Seperti yang dinyatakan sebelumnya, penggunaan inferencing penolakan adalah kontroversial, dan sulit untuk memberikan jawaban langsung tentang bagaimana hal itu dapat digunakan untuk meningkatkan akurasi model. Saya hanya akan mengutip beberapa orang lain tentang masalah ini.

Jonathan Crook dan John Banasik, Apakah Tolak Inferensi Benar-Benar Meningkatkan Kinerja Model Penilaian Aplikasi?

Pertama, bahkan di mana proporsi pelamar yang sangat besar ditolak, ruang lingkup untuk meningkatkan model parameter hanya pada yang diterima tampak sederhana. Di mana tingkat penolakan tidak begitu besar, cakupan itu tampaknya memang sangat kecil.

David Hand, "Inferensi Langsung dalam Operasi Kredit", muncul di Handbook of Credit Scoring, 2001

Beberapa metode telah diusulkan dan digunakan dan, sementara beberapa di antaranya jelas buruk dan tidak boleh direkomendasikan, tidak ada metode terbaik penerapan universal yang unik kecuali jika informasi tambahan diperoleh. Artinya, solusi terbaik adalah untuk mendapatkan lebih banyak informasi (mungkin dengan memberikan pinjaman kepada beberapa calon yang ditolak) tentang para pelamar yang termasuk dalam wilayah yang ditolak.

Derek Ploor
sumber
1
+1 untuk ikhtisar luas. Sekarang saya tahu juga apa yang menolak menyimpulkan :)
mpiktas
1
Terima kasih. tetapi bagaimana Anda menetapkan pada langkah 3? Saya telah membaca instad yang menggunakan 1 atau 0 Anda dapat menggunakan probabilitas untuk setiap baris. Jadi, Anda akan memiliki orang yang sama dengan 10% dan 90%. Bagaimana ini bisa bekerja dengan pembuatan model logistik baru?
GabyLP
1

@GabyLP dalam komentar sebelumnya. Berdasarkan pengalaman saya, Anda dapat membagi klien tersebut menjadi dua bagian dan menetapkan bobot untuk kedua pemisahan sesuai dengan probabilitas. Misalnya, jika klien yang ditolak memiliki PD 10%, Anda dapat membuat dua klien dari yang ini. Pertama memiliki variabel target 1 dan berat 0,1 dan kedua memiliki variabel target 0 dan berat 0,9.

Seluruh sampel klien yang diterima akan memiliki bobot == 1.

Meskipun ini bekerja dengan regresi logistik, itu tidak bekerja dengan model berbasis pohon.

MiksL
sumber
Apakah Anda memiliki sumber untuk pernyataan Anda?
T. Beige
Jika pertanyaannya tentang itu tidak bekerja pada model berbasis pohon maka jawaban saya adalah - pengalaman pribadi. Saya sudah mencoba menerapkan pendekatan ini tetapi belum berhasil.
MiksL